Lokales LLM einrichten: Schritt-für-Schritt-Anleitung mit Ollama für Unternehmen

Die Entscheidung für ein lokales Sprachmodell ist gefallen – jetzt geht es an die Umsetzung. Dieser Artikel richtet sich an IT-Leiter und Administratoren, die ein lokales LLM im Unternehmensumfeld aufsetzen wollen, ohne dabei ein KI-Experte sein zu müssen.

Wir zeigen den direkten Weg von der Hardware-Auswahl bis zum laufenden Team-Zugang: mit Ollama als lokale Modelllaufzeitumgebung und Open WebUI als benutzerfreundlichem Interface für alle Mitarbeiter.

Was ist Ollama – und warum ist es der richtige Einstieg?

Ollama ist eine Open-Source-Software, die das Herunterladen, Verwalten und Ausführen von lokalen Sprachmodellen auf einem einzelnen Befehl reduziert. Was früher komplexe Python-Setups, CUDA-Konfigurationen und umfangreiches ML-Know-how erforderte, ist mit Ollama in wenigen Minuten erledigt.

Für Unternehmen ist Ollama besonders attraktiv, weil:

Es unter Linux, Windows und macOS läuft
Es eine REST-API mitbringt, über die sich das Modell in eigene Anwendungen integrieren lässt
Es Hunderte von Open-Source-Modellen mit einem einzigen Befehl bereitstellt
Es ressourcenschonend ist und im Hintergrund als Dienst läuft

„Ollama macht aus einem lokalen Sprachmodell einen Dienst – so wie nginx aus einer Webseite einen Server macht.”

Schritt 1: Hardware richtig dimensionieren

Die wichtigste Entscheidung vor dem Setup ist die Hardware. Das kritische Limit ist der VRAM (Grafikspeicher der GPU) – das Modell muss vollständig in den VRAM passen, um mit GPU-Beschleunigung zu laufen. Ohne GPU ist Betrieb möglich, aber deutlich langsamer.

Empfehlungen nach Teamgröße:

Team	Modell-Empfehlung	VRAM-Bedarf	Beispiel-GPU	Investition
5–15 Nutzer	Llama 4 Scout 8B (q4)	6–8 GB	NVIDIA RTX 4060 Ti	ab 3.500 €
15–40 Nutzer	Mistral Small 24B (q4)	14–16 GB	NVIDIA RTX 4090	ab 8.000 €
40–100 Nutzer	Llama 4 Maverick 34B (q4)	22–24 GB	2× RTX 4090	ab 15.000 €
100–200 Nutzer	Llama 4 70B (q4)	40–48 GB	4× RTX 4090	ab 28.000 €

Neben der GPU gilt: 64 GB RAM sind für die meisten Unternehmensszenarien ausreichend, dazu eine schnelle NVMe-SSD für das Modell-Speicher. Für sehr hohe Anforderungen empfiehlt sich ein dedizierter Server mit ECC-RAM.

CPU-only-Betrieb: Auch ohne dedizierte GPU lässt sich Ollama betreiben – etwa auf einem vorhandenen Server mit schnellen CPU-Kernen (AMD Ryzen Threadripper, Intel Xeon). Die Verarbeitungsgeschwindigkeit ist deutlich geringer (ca. 5–15 Token/Sekunde statt 50–100), für nicht-zeitkritische Anwendungen aber durchaus praxistauglich.

Schritt 2: Ollama installieren

Linux (empfohlen für Produktivbetrieb):

curl -fsSL https://ollama.com/install.sh | sh

Ollama startet automatisch als systemd-Dienst und ist nach der Installation unter http://localhost:11434 erreichbar.

Windows: Installer von ollama.com herunterladen und ausführen. Ollama läuft dann als Windows-Dienst im Hintergrund.

macOS:

brew install ollama
ollama serve

Nach der Installation prüfen, ob Ollama läuft:

ollama list

Schritt 3: Erstes Modell herunterladen und testen

# Llama 4 Scout (empfehlenswert für den Einstieg)
ollama pull llama4:scout

# Oder Mistral Small für stärkere Leistung
ollama pull mistral-small

# Modell direkt in der Konsole testen
ollama run llama4:scout

Ein kurzer Test im Terminal reicht, um zu bestätigen, dass das Modell korrekt geladen ist und antwortet. Für den produktiven Einsatz im Team braucht es allerdings ein benutzerfreundliches Interface.

Schritt 4: Open WebUI einrichten

Open WebUI ist eine selbst hostbare Weboberfläche, die optisch stark an ChatGPT erinnert. Sie verbindet sich direkt mit Ollama und bietet:

Chat-Interface für alle Mitarbeiter (ohne technisches Vorwissen)
Multi-User-Management mit Benutzerkonten und Rechten
Gesprächsverläufe und Exportfunktionen
Upload von Dokumenten (PDF, Word) für die Analyse

Installation via Docker (empfohlen):

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Nach dem Start ist Open WebUI unter http://[server-ip]:3000 erreichbar. Beim ersten Aufruf wird ein Admin-Konto angelegt. Danach können weitere Benutzer manuell oder per E-Mail-Einladung hinzugefügt werden.

„Mit Open WebUI haben auch nicht-technische Mitarbeiter sofortigen, intuitiven Zugang zum lokalen LLM – ohne jede Installation auf ihrem eigenen Gerät.”

Schritt 5: Netzwerk-Setup für das gesamte Team

Damit alle Mitarbeiter im lokalen Netz Zugriff erhalten, muss der Server im Firmennetz erreichbar sein. Empfohlene Vorgehensweise:

Feste interne IP-Adresse vergeben: Den KI-Server im DHCP-Server des Routers mit einer festen IP konfigurieren, z.B. 192.168.1.100.

Firewall-Regeln: Zugriff auf Port 3000 (Open WebUI) nur aus dem internen Netz erlauben. Port 11434 (Ollama API) nur für interne Dienste freigeben, nicht ins Internet.

Optionaler Reverse Proxy (für HTTPS und eigene Domain): Mit nginx oder Traefik lässt sich Open WebUI unter einer internen Domain wie ai.firmenname.local erreichbar machen, inklusive SSL-Zertifikat. Das verbessert die Benutzerfreundlichkeit erheblich.

LDAP/Active Directory-Integration: Für Unternehmen mit Active Directory bietet Open WebUI eine LDAP-Authentifizierung – Mitarbeiter loggen sich dann mit ihren bestehenden Windows-Zugangsdaten an.

Schritt 6: Zugriffskontrolle und Logging

Im Unternehmensumfeld sollten folgende Punkte geregelt sein:

Benutzerrollen: In Open WebUI gibt es Admin-, User- und Gast-Rollen. Nur Admins können neue Modelle hinzufügen oder Systemkonfigurationen ändern.
Chat-Protokollierung: Alle Gespräche werden in der Open WebUI-Datenbank gespeichert. Für Compliance-Zwecke kann ein regelmäßiges Backup sinnvoll sein.
Nutzungsrichtlinien: Eine interne Richtlinie sollte festlegen, welche Daten in das LLM eingegeben werden dürfen und welche nicht.

Häufige Fehler und wie man sie vermeidet

Modell zu groß für verfügbaren VRAM: Das Modell lädt, aber der Betrieb ist extrem langsam oder bricht ab. Lösung: Kleinere Quantisierungsstufe (z.B. q4_K_M statt q8) oder Modell mit weniger Parametern wählen.

Ollama nicht als Dienst konfiguriert: Nach einem Serverneustart ist Ollama nicht verfügbar. Lösung: systemctl enable ollama sicherstellt den automatischen Start.

Open WebUI verbindet sich nicht mit Ollama: Häufig ein Netzwerkproblem. Die Ollama-URL in Open WebUI muss von localhost auf host.docker.internal geändert werden, wenn beide in Docker laufen.

Zu langsame Antwortzeiten: Prüfen, ob die GPU tatsächlich genutzt wird (ollama ps zeigt, ob ein Modell GPU- oder CPU-Modus nutzt). Bei GPU-Betrieb sollten 50–100 Token/Sekunde erreichbar sein.

Fazit: Einstieg ist einfacher als gedacht

Ein lokales LLM im Unternehmen aufzusetzen ist heute keine mehrwöchige IT-Großbaustelle mehr. Mit Ollama und Open WebUI ist ein funktionsfähiges, teamtaugliches System in einem Arbeitstag einsatzbereit – vorausgesetzt, die Hardware steht bereit.

Das Ergebnis: Alle Mitarbeiter erhalten einen sicheren, schnellen KI-Assistenten, ohne dass ein einziges Byte das Unternehmensnetzwerk verlässt.

Sie möchten das Setup professionell umsetzen lassen? Wir begleiten den gesamten Prozess – von der Hardware-Auswahl bis zur Mitarbeiter-Einweisung.

Interessiert? In einem kostenlosen Beratungsgespräch besprechen wir Ihre individuellem Anforderungen an den Einsatz künstlicher Intelligenz! Beratungstermin vereinbaren