Lokales LLM einrichten: Schritt-für-Schritt-Anleitung mit Ollama für Unternehmen
Die Entscheidung für ein lokales Sprachmodell ist gefallen – jetzt geht es an die Umsetzung. Dieser Artikel richtet sich an IT-Leiter und Administratoren, die ein lokales LLM im Unternehmensumfeld aufsetzen wollen, ohne dabei ein KI-Experte sein zu müssen.
Wir zeigen den direkten Weg von der Hardware-Auswahl bis zum laufenden Team-Zugang: mit Ollama als lokale Modelllaufzeitumgebung und Open WebUI als benutzerfreundlichem Interface für alle Mitarbeiter.
Was ist Ollama – und warum ist es der richtige Einstieg?
Ollama ist eine Open-Source-Software, die das Herunterladen, Verwalten und Ausführen von lokalen Sprachmodellen auf einem einzelnen Befehl reduziert. Was früher komplexe Python-Setups, CUDA-Konfigurationen und umfangreiches ML-Know-how erforderte, ist mit Ollama in wenigen Minuten erledigt.
Für Unternehmen ist Ollama besonders attraktiv, weil:
- Es unter Linux, Windows und macOS läuft
- Es eine REST-API mitbringt, über die sich das Modell in eigene Anwendungen integrieren lässt
- Es Hunderte von Open-Source-Modellen mit einem einzigen Befehl bereitstellt
- Es ressourcenschonend ist und im Hintergrund als Dienst läuft
„Ollama macht aus einem lokalen Sprachmodell einen Dienst – so wie nginx aus einer Webseite einen Server macht.”
Schritt 1: Hardware richtig dimensionieren
Die wichtigste Entscheidung vor dem Setup ist die Hardware. Das kritische Limit ist der VRAM (Grafikspeicher der GPU) – das Modell muss vollständig in den VRAM passen, um mit GPU-Beschleunigung zu laufen. Ohne GPU ist Betrieb möglich, aber deutlich langsamer.
Empfehlungen nach Teamgröße:
| Team | Modell-Empfehlung | VRAM-Bedarf | Beispiel-GPU | Investition |
|---|---|---|---|---|
| 5–15 Nutzer | Llama 4 Scout 8B (q4) | 6–8 GB | NVIDIA RTX 4060 Ti | ab 3.500 € |
| 15–40 Nutzer | Mistral Small 24B (q4) | 14–16 GB | NVIDIA RTX 4090 | ab 8.000 € |
| 40–100 Nutzer | Llama 4 Maverick 34B (q4) | 22–24 GB | 2× RTX 4090 | ab 15.000 € |
| 100–200 Nutzer | Llama 4 70B (q4) | 40–48 GB | 4× RTX 4090 | ab 28.000 € |
Neben der GPU gilt: 64 GB RAM sind für die meisten Unternehmensszenarien ausreichend, dazu eine schnelle NVMe-SSD für das Modell-Speicher. Für sehr hohe Anforderungen empfiehlt sich ein dedizierter Server mit ECC-RAM.
CPU-only-Betrieb: Auch ohne dedizierte GPU lässt sich Ollama betreiben – etwa auf einem vorhandenen Server mit schnellen CPU-Kernen (AMD Ryzen Threadripper, Intel Xeon). Die Verarbeitungsgeschwindigkeit ist deutlich geringer (ca. 5–15 Token/Sekunde statt 50–100), für nicht-zeitkritische Anwendungen aber durchaus praxistauglich.
Schritt 2: Ollama installieren
Linux (empfohlen für Produktivbetrieb):
curl -fsSL https://ollama.com/install.sh | shOllama startet automatisch als systemd-Dienst und ist nach der Installation unter http://localhost:11434 erreichbar.
Windows: Installer von ollama.com herunterladen und ausführen. Ollama läuft dann als Windows-Dienst im Hintergrund.
macOS:
brew install ollama
ollama serveNach der Installation prüfen, ob Ollama läuft:
ollama listSchritt 3: Erstes Modell herunterladen und testen
# Llama 4 Scout (empfehlenswert für den Einstieg)
ollama pull llama4:scout
# Oder Mistral Small für stärkere Leistung
ollama pull mistral-small
# Modell direkt in der Konsole testen
ollama run llama4:scoutEin kurzer Test im Terminal reicht, um zu bestätigen, dass das Modell korrekt geladen ist und antwortet. Für den produktiven Einsatz im Team braucht es allerdings ein benutzerfreundliches Interface.
Schritt 4: Open WebUI einrichten
Open WebUI ist eine selbst hostbare Weboberfläche, die optisch stark an ChatGPT erinnert. Sie verbindet sich direkt mit Ollama und bietet:
- Chat-Interface für alle Mitarbeiter (ohne technisches Vorwissen)
- Multi-User-Management mit Benutzerkonten und Rechten
- Gesprächsverläufe und Exportfunktionen
- Upload von Dokumenten (PDF, Word) für die Analyse
Installation via Docker (empfohlen):
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:mainNach dem Start ist Open WebUI unter http://[server-ip]:3000 erreichbar. Beim ersten Aufruf wird ein Admin-Konto angelegt. Danach können weitere Benutzer manuell oder per E-Mail-Einladung hinzugefügt werden.
„Mit Open WebUI haben auch nicht-technische Mitarbeiter sofortigen, intuitiven Zugang zum lokalen LLM – ohne jede Installation auf ihrem eigenen Gerät.”
Schritt 5: Netzwerk-Setup für das gesamte Team
Damit alle Mitarbeiter im lokalen Netz Zugriff erhalten, muss der Server im Firmennetz erreichbar sein. Empfohlene Vorgehensweise:
Feste interne IP-Adresse vergeben: Den KI-Server im DHCP-Server des Routers mit einer festen IP konfigurieren, z.B. 192.168.1.100.
Firewall-Regeln: Zugriff auf Port 3000 (Open WebUI) nur aus dem internen Netz erlauben. Port 11434 (Ollama API) nur für interne Dienste freigeben, nicht ins Internet.
Optionaler Reverse Proxy (für HTTPS und eigene Domain): Mit nginx oder Traefik lässt sich Open WebUI unter einer internen Domain wie ai.firmenname.local erreichbar machen, inklusive SSL-Zertifikat. Das verbessert die Benutzerfreundlichkeit erheblich.
LDAP/Active Directory-Integration: Für Unternehmen mit Active Directory bietet Open WebUI eine LDAP-Authentifizierung – Mitarbeiter loggen sich dann mit ihren bestehenden Windows-Zugangsdaten an.
Schritt 6: Zugriffskontrolle und Logging
Im Unternehmensumfeld sollten folgende Punkte geregelt sein:
- Benutzerrollen: In Open WebUI gibt es Admin-, User- und Gast-Rollen. Nur Admins können neue Modelle hinzufügen oder Systemkonfigurationen ändern.
- Chat-Protokollierung: Alle Gespräche werden in der Open WebUI-Datenbank gespeichert. Für Compliance-Zwecke kann ein regelmäßiges Backup sinnvoll sein.
- Nutzungsrichtlinien: Eine interne Richtlinie sollte festlegen, welche Daten in das LLM eingegeben werden dürfen und welche nicht.
Häufige Fehler und wie man sie vermeidet
Modell zu groß für verfügbaren VRAM: Das Modell lädt, aber der Betrieb ist extrem langsam oder bricht ab. Lösung: Kleinere Quantisierungsstufe (z.B. q4_K_M statt q8) oder Modell mit weniger Parametern wählen.
Ollama nicht als Dienst konfiguriert: Nach einem Serverneustart ist Ollama nicht verfügbar. Lösung: systemctl enable ollama sicherstellt den automatischen Start.
Open WebUI verbindet sich nicht mit Ollama: Häufig ein Netzwerkproblem. Die Ollama-URL in Open WebUI muss von localhost auf host.docker.internal geändert werden, wenn beide in Docker laufen.
Zu langsame Antwortzeiten: Prüfen, ob die GPU tatsächlich genutzt wird (ollama ps zeigt, ob ein Modell GPU- oder CPU-Modus nutzt). Bei GPU-Betrieb sollten 50–100 Token/Sekunde erreichbar sein.
Fazit: Einstieg ist einfacher als gedacht
Ein lokales LLM im Unternehmen aufzusetzen ist heute keine mehrwöchige IT-Großbaustelle mehr. Mit Ollama und Open WebUI ist ein funktionsfähiges, teamtaugliches System in einem Arbeitstag einsatzbereit – vorausgesetzt, die Hardware steht bereit.
Das Ergebnis: Alle Mitarbeiter erhalten einen sicheren, schnellen KI-Assistenten, ohne dass ein einziges Byte das Unternehmensnetzwerk verlässt.
Interessiert? In einem kostenlosen Beratungsgespräch besprechen wir Ihre individuellem Anforderungen an den Einsatz künstlicher Intelligenz! Beratungstermin vereinbaren