9    Sprachmodelle lokal ausführen

Large Language Models (LLMs) sind seit dem bahnbrechenden Erfolg von ChatGPT in aller Munde. Egal, ob es sich um Gemini, Claude oder ChatGPT handelt, eines haben sie alle gemein: Sie werden von Unternehmen zur Verfügung gestellt. Diese stellen die Schnittstellen zu ihren Modellen meist sogar kostenlos zur Verfügung. Bestimmte Features wie die bevorzugte Bearbeitung der Anfragen oder die neuesten und besten Modellvarianten erhalten Sie dann als Pro-Kunde für eine überschaubare Gebühr.

Egal, für welche Variante Sie sich entscheiden, Sie haben es immer mit einem Dienst zu tun, der in der Cloud gehostet wird, und wissen daher nicht sicher, was mit den Daten passiert, die Sie über Ihre Prompts an die Dienste übermitteln. Ein weiterer Kritikpunkt an diesen Online-Diensten ist, dass Sie von dem jeweiligen Anbieter abhängig sind. Momentan gibt es zwar genug Angebote, sodass Sie kein Problem haben, sollte ein Anbieter sein Angebot zurückziehen, aber die Abhängigkeit bleibt bestehen.

Gerade Bedenken beim Datenschutz und die Abhängigkeit von einem Anbieter lassen einige Personen und Unternehmen nach Alternativen suchen, wenn es um den Einsatz von Sprachmodellen geht. Deswegen besteht ein wachsendes Interesse daran, LLMs lokal auszuführen. Wie gut das funktioniert, verrät dieses Kapitel:

9.1    Die Qual der LLM-Wahl

Beschäftigen Sie sich mit generativer KI, kommen Sie unweigerlich mit verschiedenen LLMs in Berührung. Dieser Abschnitt soll Ihnen einen groben Überblick über die verschiedenen Modellfamilien, ihren Einsatzzweck sowie den Ressourcenbedarf bei lokalen Modellen geben.

Welche Modelle lösen welche Probleme?

Generell müssen Sie bei LLMs zwischen kommerziellen und frei verfügbaren Modellen unterscheiden. Die kommerziellen Modelle werden von Anbietern als Dienste bereitgestellt. ChatGPT ist ein Beispiel für einen solchen Dienst. In der Basisvariante können Sie ChatGPT im Browser kostenlos für Ihre Anfragen nutzen. OpenAI, der Anbieter hinter ChatGPT, bietet ein monatliches Abo-Modell mit einigen Vorteilen an, wie z. B. den Zugriff auf bessere Modelle, höheres Nachrichtenvolumen oder früheren Zugriff auf neue Features. Ähnliche Strategien verfolgen auch Anthropic mit Claude oder Google mit Gemini.

Zusätzlich zur bekannten Browser-Schnittstelle oder zu Apps können Sie diese Modelle auch über eine API verwenden. Hier ist das Abrechnungsmodell meist anders, und Sie müssen pro Token bezahlen, sowohl für Ein- als auch Ausgabetoken. Die Gebühren pro Token sind meist sehr gering. So können Sie bei OpenAI für 5 $ eine Million Eingabetoken und für 15 $ eine Million Ausgabetoken kaufen. Das kleinere GPT-4o-mini-Modell kostet 0,15 $ für eine Million Eingabetoken und 0,60 $ für eine Million Ausgabetoken (Stand: September 2024).

Für die lokale Ausführung frei verfügbarer Modelle wie Llama, Gemma oder Mistral fallen keine Kosten an. Allerdings müssen Sie nun die Infrastruktur selbst bereitstellen, auf der die Modelle ausgeführt werden. Deshalb sollten Sie sehr genau abwägen, welche Variante Sie wählen. Die Kosten können Sie meist durch die Qualität des Modells und die Antwortzeit steuern.

Derzeit gibt es viele verschiedene LLMs auf dem Markt. Einige Modelle teilen sich die gleiche Architektur und können deshalb in Familien eingeordnet werden. Mit GPT, Llama, Mistral und Claude lernen Sie im Folgenden einige Beispiele und ihre jeweiligen Besonderheiten kennen.

Ein objektiver Vergleich, welches Sprachmodell für welche Anwendung das optimale Ergebnis liefert, ist äußerst schwierig. Es gibt dafür noch keinen allgemein akzeptierten Standard, aber natürlich viele Projekte und wissenschaftliche Untersuchungen. Die Lektüre der folgenden Seiten, ausgewählt im Hinblick auf Coding-Anwendungen, vermittelt einen ersten Eindruck:

https://lmarena.ai/?leaderboard
https://artificialanalysis.ai/models/gpt-4o/providers
https://github.com/continuedev/what-llm-to-use
https://evalplus.github.io/leaderboard.html
https://symflower.com/en/company/blog/2024/comparing-llm-benchmarks

Letztlich bleibt Ihnen aber nicht erspart, selbst zu experimentieren, welche LLM sich auf Ihrer Hardware und für Ihre Anforderungen am besten bewährt.

Kostenlos oder wirklich open source?

»Freie« LLMs wie Llama, Gemma, StarCoder oder Mistral sind zwar kostenlos verfügbar, unterliegen aber eigenen Lizenzen, die die Anwendung einschränken können. Bei den meisten LLMs gibt es mehr Restriktionen, als Sie dies z. B. aus der Linux-Welt gewohnt sind.

Gerade vor dem kommerziellen Einsatz von freien LLMs müssen Sie sich mit den Nutzungsbedingungen auseinandersetzen. Diese finden Sie auf der jeweiligen Projektseite sowie auf der Website https://huggingface.co bei der Beschreibung des jeweiligen Sprachmodells.

Hardware-Anforderungen

Es ist natürlich erfreulich, dass Sie viele Sprachmodelle kostenlos herunterladen können; die lokale Ausführung solcher Modelle mit Programmen wie GPT4All oder Ollama scheitert aber oft an den hohen Hardware-Voraussetzungen. Wenn Sie beispielsweise versuchen, das Llama-3.1-Modell in der qualitativ besten 405B-Variante auf einem handelsüblichen Rechner auszuführen, werden Sie feststellen, dass das schlichtweg nicht möglich ist. Aus diesem Grund werfen wir im Folgenden einen Blick auf die allgemeinen Hardware-Anforderungen, um ein LLM auszuführen:

Solange Sie Ihrer Plattform ausreichend Arbeitsspeicher zur Verfügung stellen, damit sie das entsprechende Modell laden kann, können Sie es auch ausführen. Nutzen Sie jedoch eine zu schwache Hardware, müssen Sie damit rechnen, dass die Rückmeldungen des Modells sehr langsam erfolgen. Setzen Sie lieber auf ein etwas kleineres Modell, das auf Ihrem System reibungslos funktioniert, anstatt ein Modell zu verwenden, das gerade noch so auf Ihrem System ausgeführt werden kann.

Geschwindigkeits-Benchmarks

Ein entscheidender Parameter zur Abschätzung, wie gut die lokale Ausführung eines Sprachmodells funktioniert, ist die Anzahl der Token, die pro Sekunde verarbeitet (Input) bzw. generiert werden können (Output). Für die interaktive Anwendung beim Coding sollte Ihr lokales Sprachmodell zumindest 30 Token/s (Output) erreichen.

Die Token-Rate hängt primär von zwei Dingen ab: von der Modellgröße und der verfügbaren Hardware. Auf den folgenden Seiten finden Sie Ergebnisse für diverse LLMs und Hardware-Konfigurationen unter Windows, Linux und macOS:

https://llm.aidatatools.com/results-windows.php
https://llm.aidatatools.com/results-linux.php
https://llm.aidatatools.com/results-macos.php

Alternativen zur lokalen Ausführung von Modellen

Neben der lokalen Ausführung von KI-Modellen und dem Einsatz von kommerziellen Modellen gibt es noch einen Zwischenschritt. Sie können auch virtuelle Maschinen mit GPU in der Cloud mieten. Alle großen Anbieter haben solche Dienste im Angebot. Beachten Sie jedoch, dass für die Nutzung solcher virtueller Maschinen teilweise erhebliche Kosten anfallen können, sodass Sie sorgfältig abwägen sollten, ob Sie diese nur punktuell benötigen. Die folgende Übersicht zeigt eine Auswahl von Möglichkeiten für solche Plattformen bei den großen Cloud-Anbietern:

Die verschiedenen Anbieter stellen Ihnen Cloud-Instanzen in unterschiedlichen Dimensionierungen zur Verfügung. Die Preise hängen stark von der jeweiligen Konfiguration und der Laufzeit ab. Wenn Sie beispielsweise eine NCasT4_v3-Instanz von Microsoft Azure mieten, kostet Sie das pro Monat etwa 600 Euro. Dafür erhalten Sie 28 GB RAM, 176 GB Festplattenspeicher und eine Nvidia Tesla T4 GPU mit 16 GB VRAM.

Diese Konfiguration können Sie noch steigern, wenn Sie beispielsweise eine Standard_NC48ads_A100_v4-Instanz wählen. Diese bietet Ihnen 440 GB RAM, 128 vCPUs, 2×960 GB Festplattenspeicher und 2 Nvidia A100 GPUs mit jeweils 80 GB VRAM. Die Kosten steigen bei dieser Konfiguration allerdings auf etwa 8.500 Euro pro Monat!

Für eine genaue Preisberechnung sollten Sie den Preisrechner der jeweiligen Anbieter konsultieren. Egal, für welchen kommerziellen Anbieter Sie sich entscheiden, es entstehen auf jeden Fall Kosten für Sie. Eine Alternative bietet die lokale Ausführung, entweder auf Ihrem eigenen Rechner oder in Ihrem lokalen Netzwerk. Zu diesem Zweck können Sie Plattformen wie GPT4All oder Ollama nutzen, die Ihnen das Ausführen von Modellen erleichtern.

Groq

Die Firma Groq (nicht zu verwechseln mit dem KI-Chatbot Grok von xAI!) beschreitet mit ihrer GroqCloud einen Mittelweg zwischen kommerziellen KI-API-Anbietern wie OpenAI oder Anthropic und reinen Cloud/Hardware-Anbietern wie AWS. Bei Groq können Sie über API-Schlüssel LLM-Prompts ausführen. Dabei stehen diverse Open-Source-LLMs in verschiedenen Größen zur Auswahl. Die Abrechnung erfolgt nach Nutzung (Anzahl der Token mit unterschiedlichen Preisen je nach Modell). Groq verwendet einen selbst entwickelten KI-Beschleuniger (Language Processing Unit), der LLMs besonders schnell ausführen kann. Weitere Informationen finden Sie hier:

https://groq.com/groqcloud