Llama, Mistral, Qwen, DeepSeek: Wer aktuell über Open Source KI spricht, meint meist diese Modelle. Sie lassen sich herunterladen, lokal betreiben und ohne Lizenzgebühren in eigene Produkte einbauen. Trotzdem ist das Etikett “Open Source” bei den meisten dieser Modelle nicht ganz korrekt. Der präzisere Begriff heißt Open Weights, und der Unterschied entscheidet darüber, wie unabhängig ein Unternehmen tatsächlich wird.
Open Weights ist nicht gleich Open Source
Bei Software ist die Sache klar: Wer den Quellcode unter einer von der OSI anerkannten Lizenz freigibt, betreibt Open Source. Bei KI-Modellen besteht das fertige Produkt aus drei Bestandteilen, die voneinander getrennt freigegeben werden können.
Da sind erstens die Gewichte, also die antrainierten Parameter eines neuronalen Netzes. Zweitens der Trainings-Code, mit dem aus Daten und Architektur das Modell entsteht. Drittens die Trainingsdaten selbst. Open Weights bedeutet, dass nur der erste Bestandteil offen liegt. Llama 3 von Meta, Mistral Large oder die meisten chinesischen Modelle wie Qwen oder DeepSeek fallen in diese Kategorie.
Die Open Source Initiative (OSI) hat im Oktober 2024 mit der Open Source AI Definition 1.0 erstmals einen Standard veröffentlicht, der für ein wirklich offenes Modell alle drei Bestandteile fordert: Gewichte, Code und ausreichend dokumentierte Daten, um das Training reproduzierbar zu machen. Nach dieser Definition erfüllen aktuell nur wenige bekannte Modelle die Kriterien. OLMo vom Allen Institute, Pythia von EleutherAI oder LLM360 zählen dazu. Llama, Mistral und Qwen tun es nicht.
Für viele Anwendungsfälle ist Open Weights trotzdem ausreichend. Wer ein Modell ausschließlich zur Inferenz nutzt, braucht weder Trainingscode noch Daten. Anders sieht es aus, wenn Reproduzierbarkeit, Audit-Pflichten oder rechtliche Klarheit über die Daten eine Rolle spielen. Dort wird die Lücke zwischen Open Weights und Open Source zur Geschäftsfrage.
Lizenzfallen bei vermeintlich offenen Modellen
Open Weights heißt auch nicht automatisch lizenzfrei. Die Llama Community License erlaubt kommerzielle Nutzung, schließt aber Anbieter mit mehr als 700 Millionen monatlichen aktiven Nutzern aus und enthält Acceptable-Use-Policies, die bestimmte Einsatzszenarien verbieten. Die Mistral Research License gilt nur für Forschungs- und Eigennutzung, kommerzielle Nutzung erfordert eine separate Vereinbarung. Qwen-Modelle stehen unter angepassten Apache-2.0-Varianten mit Zusatzbedingungen.
Wer Open Weights produktiv einsetzt, muss die Lizenz lesen. Punkt. Das gilt besonders, wenn das Modell Teil eines kommerziellen Produkts wird oder wenn Output an Endkunden geliefert wird, die selbst Hyperscaler-Größenordnungen erreichen könnten. Im Zweifel hilft ein Blick auf die SBOM-Praxis: Modelle gehören mit Versionsnummer und Lizenztext in dieselbe Bestandsaufnahme wie Software-Abhängigkeiten. Mehr zum Thema Abhängigkeitsmanagement findet sich im Artikel zu Open-Source-Lizenzen für Unternehmen und in der englischen Übersicht zu Open Source im Mittelstand.
Wann lohnt sich der Eigenbetrieb?
Die Standardantwort lautet: Es kommt darauf an. Konkreter sind die Treiber, die für Eigenbetrieb sprechen.
Datenschutz steht in der DACH-Region meist an erster Stelle. Wer Patientendaten, Fertigungsdaten oder Mandatsinformationen verarbeitet, möchte sie nicht durch Drittanbieter-APIs schicken, auch nicht über No-Train-Klauseln abgesichert. Ein lokal gehostetes Llama 3 70B oder Mixtral 8x22B löst dieses Problem strukturell. Die Datenhoheit liegt vollständig im eigenen Rechenzentrum oder bei einem deutschen Cloud-Anbieter.
Kostenkontrolle ist der zweite Treiber. Bei hohem Token-Volumen kippt die Rechnung zugunsten des Eigenbetriebs. Eine grobe Faustformel: Ab etwa fünf Millionen Inferenz-Tokens pro Tag wird ein dedizierter GPU-Server (z. B. zwei H100 für Llama 3 70B) günstiger als äquivalente API-Aufrufe bei den Hyperscalern. Die Rechnung verschiebt sich weiter, wenn ein Modell rund um die Uhr ausgelastet wird statt sporadisch.
Fine-Tuning auf Domänendaten ist der dritte Treiber. Wer ein Modell auf Versicherungsschäden, juristische Texte oder spezifischen Code-Stil trainieren will, braucht Zugriff auf Gewichte. Ein API-Modell lässt sich nur über RAG oder System-Prompts steuern. Echtes Fine-Tuning erfordert Open Weights und Infrastruktur. Die Tools dafür sind erwachsen geworden: Hugging Face TRL, Unsloth oder Axolotl decken die meisten Anwendungsfälle ab.
Latenz und Verfügbarkeit kommen als vierter Punkt dazu. Eine On-Premise-Inferenz auf einer dedizierten GPU antwortet zuverlässig in 200 bis 500 Millisekunden, unabhängig davon, ob OpenAI gerade ein Outage hat oder Anthropic seine Modellpolitik ändert.
Praxisstack für lokalen Betrieb
Für Mac-Workstations oder kleine Edge-Setups ist Ollama der pragmatische Einstieg. Ein Llama 3 8B läuft auf einem Mac Mini M4 mit 32 GB RAM in akzeptabler Geschwindigkeit, etwa 25 Tokens pro Sekunde. Für Tests, interne Tools und Entwickler-Workstations genügt das.
Die Installation und der erste Lauf brauchen drei Befehle:
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b
ollama run llama3.1:8b "Erkläre RAG in drei Sätzen."
Für produktive Workloads kommt vLLM oder Text Generation Inference (TGI) ins Spiel. Beide Server skalieren auf Multi-GPU-Setups, unterstützen kontinuierliches Batching und liefern OpenAI-kompatible APIs. Damit lassen sich bestehende Anwendungen mit minimalem Aufwand umschalten.
Ein bestehender OpenAI-Client lässt sich mit zwei Zeilen auf vLLM umbiegen:
from openai import OpenAI
client = OpenAI(
base_url="https://llm.intern.example.com/v1",
api_key="sk-internal",
)
response = client.chat.completions.create(
model="meta-llama/Meta-Llama-3.1-70B-Instruct",
messages=[{"role": "user", "content": "Was ist Open Weights?"}],
temperature=0.2,
)
print(response.choices[0].message.content)
Für Hardware empfiehlt sich ein zweistufiger Ansatz. Erstens eine Entwickler-Variante mit konsumernahen GPUs (RTX 4090 oder zwei davon im Server). Zweitens eine Produktiv-Variante mit Datacenter-GPUs (H100, H200 oder MI300X bei AMD). Wer keine eigene Hardware betreiben will, findet bei deutschen Anbietern wie IONOS oder Hetzner GPU-Instanzen mit klaren DSGVO-Bedingungen.
Die strategische Frage hinter Open Weights
Der eigentliche Wert von Open Weights liegt nicht in der monatlichen Kostenersparnis. Er liegt in der Optionalität. Wer ein RAG-System auf einem offenen Modell aufbaut, kann das Modell jederzeit wechseln, ohne Daten oder Logik in einer fremden API zu hinterlassen. Diese Flexibilität ist in regulierten Branchen oder bei langfristigen Plattformen entscheidend.
Gleichzeitig verschärft sich die Asymmetrie: Open-Weights-Modelle erreichen die Frontier-API-Modelle bei vielen Aufgaben mittlerweile auf Augenhöhe, etwa bei Code-Generierung oder strukturierten Extraktionen. Bei komplexem Reasoning, sehr langen Kontexten oder Multimodalität liegen die proprietären Modelle weiter vorn. Die Lücke schließt sich, aber sie existiert noch.
Eine pragmatische Architektur kombiniert beides: Das offene Modell läuft lokal für sensible Daten, häufige Anfragen und Standardaufgaben. Die proprietäre API ist dort verfügbar, wo Spitzenleistung gebraucht wird. Diese Hybrid-Strategie ist der Kern dessen, was Open Source in der KI heute leistet. Sie liefert nicht zwingend das beste Modell, aber die beste Verhandlungsposition.
Fazit
Open Weights ist nicht Open Source, aber für die meisten produktiven KI-Einsätze in Unternehmen das ehrlichere Versprechen. Wer Datenhoheit braucht, hohe Volumina verarbeitet oder Modelle auf eigene Daten anpassen muss, kommt um den Eigenbetrieb nicht herum. Die Tools dafür sind reif, die Hardware verfügbar, die Kostenrechnung in vielen Szenarien überzeugend.
Wer die KI-Strategie im Unternehmen aufsetzen will, findet im Artikel zur KI-Strategie für den Mittelstand den passenden Rahmen. Für die Verbindung mit eigenen Wissensdatenbanken bietet der Beitrag zu RAG-Systemen die technische Grundlage. Eine englische Fassung dieses Artikels sowie unser englischer Beitrag zur KI-Governance stehen für internationale Leser bereit. Bei der Implementierung unterstützt unser Beratungsangebot zu KI und Automatisierung von der Architektur bis zum produktiven Betrieb.
Häufige Fragen
Was ist der Unterschied zwischen Open Source und Open Weights bei KI-Modellen?
Open Weights bedeutet, dass nur die antrainierten Modellgewichte öffentlich verfügbar sind. Open Source nach OSI-Definition fordert zusätzlich den Trainings-Code und ausreichend dokumentierte Trainingsdaten zur Reproduzierbarkeit. Llama und Mistral sind Open Weights. OLMo und Pythia erfüllen die strengeren Open-Source-Kriterien.
Welche Hardware brauche ich für ein lokales Llama 3 70B?
Für produktive Inferenz reichen zwei H100-GPUs mit je 80 GB VRAM bei guter Performance. Auf Consumer-Hardware lässt sich Llama 3 70B in quantisierter Form (4-Bit) auf zwei RTX 4090 oder einem Mac Studio M2 Ultra mit 192 GB Unified Memory betreiben. Geschwindigkeit liegt dann bei 10 bis 20 Tokens pro Sekunde.
Ab wann lohnt sich Eigenbetrieb gegenüber API-Nutzung?
Bei etwa fünf Millionen Inferenz-Tokens pro Tag und 24/7-Auslastung kippt die Kostenrechnung zugunsten eines dedizierten GPU-Servers. Bei sporadischer Nutzung bleibt die API günstiger. Datenschutzanforderungen oder Fine-Tuning-Bedarf können den Eigenbetrieb aber auch bei kleinerem Volumen rechtfertigen, unabhängig von der reinen Kostenrechnung.
Darf ich Llama oder Mistral kommerziell einsetzen?
Llama 3 erlaubt kommerzielle Nutzung, schließt aber Anbieter mit über 700 Millionen monatlichen Nutzern aus. Mistral-Modelle sind je nach Variante unterschiedlich lizenziert. Die Mistral Research License gilt nur für Forschung. Vor produktivem Einsatz sollte die jeweilige Lizenz geprüft und Modellversionen wie Software-Abhängigkeiten in einer SBOM dokumentiert werden.