Lokales LLM einrichten: Schritt-für-Schritt-Anleitung mit Ollama für Unternehmen

#Ollama

#Lokales LLM

#LLM on-premise

#Open WebUI

Wie Sie mit Ollama und Open WebUI ein lokales Sprachmodell im Unternehmen aufsetzen. Hardware-Anforderungen, Modellauswahl, Netzwerk-Setup und Tipps für IT-Leiter und Administratoren.

Programmierung und technisches Setup eines lokalen LLMs
Portrait von Bernhard Mayr

Dr. Bernhard Mayr, MBA

Geschäftsführer, passgenau-digital GmbH

Published 19.05.2026

Lokales LLM einrichten: Schritt-für-Schritt-Anleitung mit Ollama für Unternehmen

Die Entscheidung für ein lokales Sprachmodell ist gefallen – jetzt geht es an die Umsetzung. Dieser Artikel richtet sich an IT-Leiter und Administratoren, die ein lokales LLM im Unternehmensumfeld aufsetzen wollen, ohne dabei ein KI-Experte sein zu müssen.

Wir zeigen den direkten Weg von der Hardware-Auswahl bis zum laufenden Team-Zugang: mit Ollama als lokale Modelllaufzeitumgebung und Open WebUI als benutzerfreundlichem Interface für alle Mitarbeiter.

Was ist Ollama – und warum ist es der richtige Einstieg?

Ollama ist eine Open-Source-Software, die das Herunterladen, Verwalten und Ausführen von lokalen Sprachmodellen auf einem einzelnen Befehl reduziert. Was früher komplexe Python-Setups, CUDA-Konfigurationen und umfangreiches ML-Know-how erforderte, ist mit Ollama in wenigen Minuten erledigt.

Für Unternehmen ist Ollama besonders attraktiv, weil:

„Ollama macht aus einem lokalen Sprachmodell einen Dienst – so wie nginx aus einer Webseite einen Server macht.”

Schritt 1: Hardware richtig dimensionieren

Die wichtigste Entscheidung vor dem Setup ist die Hardware. Das kritische Limit ist der VRAM (Grafikspeicher der GPU) – das Modell muss vollständig in den VRAM passen, um mit GPU-Beschleunigung zu laufen. Ohne GPU ist Betrieb möglich, aber deutlich langsamer.

Empfehlungen nach Teamgröße:

TeamModell-EmpfehlungVRAM-BedarfBeispiel-GPUInvestition
5–15 NutzerLlama 4 Scout 8B (q4)6–8 GBNVIDIA RTX 4060 Tiab 3.500 €
15–40 NutzerMistral Small 24B (q4)14–16 GBNVIDIA RTX 4090ab 8.000 €
40–100 NutzerLlama 4 Maverick 34B (q4)22–24 GB2× RTX 4090ab 15.000 €
100–200 NutzerLlama 4 70B (q4)40–48 GB4× RTX 4090ab 28.000 €

Neben der GPU gilt: 64 GB RAM sind für die meisten Unternehmensszenarien ausreichend, dazu eine schnelle NVMe-SSD für das Modell-Speicher. Für sehr hohe Anforderungen empfiehlt sich ein dedizierter Server mit ECC-RAM.

CPU-only-Betrieb: Auch ohne dedizierte GPU lässt sich Ollama betreiben – etwa auf einem vorhandenen Server mit schnellen CPU-Kernen (AMD Ryzen Threadripper, Intel Xeon). Die Verarbeitungsgeschwindigkeit ist deutlich geringer (ca. 5–15 Token/Sekunde statt 50–100), für nicht-zeitkritische Anwendungen aber durchaus praxistauglich.

Schritt 2: Ollama installieren

Linux (empfohlen für Produktivbetrieb):

curl -fsSL https://ollama.com/install.sh | sh

Ollama startet automatisch als systemd-Dienst und ist nach der Installation unter http://localhost:11434 erreichbar.

Windows: Installer von ollama.com herunterladen und ausführen. Ollama läuft dann als Windows-Dienst im Hintergrund.

macOS:

brew install ollama
ollama serve

Nach der Installation prüfen, ob Ollama läuft:

ollama list

Schritt 3: Erstes Modell herunterladen und testen

# Llama 4 Scout (empfehlenswert für den Einstieg)
ollama pull llama4:scout

# Oder Mistral Small für stärkere Leistung
ollama pull mistral-small

# Modell direkt in der Konsole testen
ollama run llama4:scout

Ein kurzer Test im Terminal reicht, um zu bestätigen, dass das Modell korrekt geladen ist und antwortet. Für den produktiven Einsatz im Team braucht es allerdings ein benutzerfreundliches Interface.

Schritt 4: Open WebUI einrichten

Open WebUI ist eine selbst hostbare Weboberfläche, die optisch stark an ChatGPT erinnert. Sie verbindet sich direkt mit Ollama und bietet:

Installation via Docker (empfohlen):

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Nach dem Start ist Open WebUI unter http://[server-ip]:3000 erreichbar. Beim ersten Aufruf wird ein Admin-Konto angelegt. Danach können weitere Benutzer manuell oder per E-Mail-Einladung hinzugefügt werden.

„Mit Open WebUI haben auch nicht-technische Mitarbeiter sofortigen, intuitiven Zugang zum lokalen LLM – ohne jede Installation auf ihrem eigenen Gerät.”

Schritt 5: Netzwerk-Setup für das gesamte Team

Damit alle Mitarbeiter im lokalen Netz Zugriff erhalten, muss der Server im Firmennetz erreichbar sein. Empfohlene Vorgehensweise:

Feste interne IP-Adresse vergeben: Den KI-Server im DHCP-Server des Routers mit einer festen IP konfigurieren, z.B. 192.168.1.100.

Firewall-Regeln: Zugriff auf Port 3000 (Open WebUI) nur aus dem internen Netz erlauben. Port 11434 (Ollama API) nur für interne Dienste freigeben, nicht ins Internet.

Optionaler Reverse Proxy (für HTTPS und eigene Domain): Mit nginx oder Traefik lässt sich Open WebUI unter einer internen Domain wie ai.firmenname.local erreichbar machen, inklusive SSL-Zertifikat. Das verbessert die Benutzerfreundlichkeit erheblich.

LDAP/Active Directory-Integration: Für Unternehmen mit Active Directory bietet Open WebUI eine LDAP-Authentifizierung – Mitarbeiter loggen sich dann mit ihren bestehenden Windows-Zugangsdaten an.

Schritt 6: Zugriffskontrolle und Logging

Im Unternehmensumfeld sollten folgende Punkte geregelt sein:

Häufige Fehler und wie man sie vermeidet

Modell zu groß für verfügbaren VRAM: Das Modell lädt, aber der Betrieb ist extrem langsam oder bricht ab. Lösung: Kleinere Quantisierungsstufe (z.B. q4_K_M statt q8) oder Modell mit weniger Parametern wählen.

Ollama nicht als Dienst konfiguriert: Nach einem Serverneustart ist Ollama nicht verfügbar. Lösung: systemctl enable ollama sicherstellt den automatischen Start.

Open WebUI verbindet sich nicht mit Ollama: Häufig ein Netzwerkproblem. Die Ollama-URL in Open WebUI muss von localhost auf host.docker.internal geändert werden, wenn beide in Docker laufen.

Zu langsame Antwortzeiten: Prüfen, ob die GPU tatsächlich genutzt wird (ollama ps zeigt, ob ein Modell GPU- oder CPU-Modus nutzt). Bei GPU-Betrieb sollten 50–100 Token/Sekunde erreichbar sein.

Fazit: Einstieg ist einfacher als gedacht

Ein lokales LLM im Unternehmen aufzusetzen ist heute keine mehrwöchige IT-Großbaustelle mehr. Mit Ollama und Open WebUI ist ein funktionsfähiges, teamtaugliches System in einem Arbeitstag einsatzbereit – vorausgesetzt, die Hardware steht bereit.

Das Ergebnis: Alle Mitarbeiter erhalten einen sicheren, schnellen KI-Assistenten, ohne dass ein einziges Byte das Unternehmensnetzwerk verlässt.

Sie möchten das Setup professionell umsetzen lassen? Wir begleiten den gesamten Prozess – von der Hardware-Auswahl bis zur Mitarbeiter-Einweisung.

Interessiert? In einem kostenlosen Beratungsgespräch besprechen wir Ihre individuellem Anforderungen an den Einsatz künstlicher Intelligenz! Beratungstermin vereinbaren