KI-Thema moderne Sprachmodelle
Wie funktionieren moderne Sprachmodelle – Und was sind ihre Limitationen?
Sprachmodelle gehören mittlerweile für viele Menschen zum Alltag, erläuterte anlässlich seines Burschenvortrages unser Bundesbruder GUS. Ob bei der Beantwortung von Alltagsfragen, als Entscheidungshilfe welche Gerichte abends mit dem begrenzten Kühlschrankinhalt gekocht werden können, in Chatbots auf Webseiten, in Smartphones oder beim Programmieren – fast überall arbeiten im Hintergrund KI-Systeme, die Sprache erzeugen oder analysieren. Obwohl diese Modelle täglich millionenfach verwendet werden, ist oft unklar, wie sie eigentlich funktionieren und warum sie trotz ihrer beeindruckenden Fähigkeiten manchmal bei eigentlich einfachen Dingen Fehler machen, wie beispielsweise einfachen Rechenaufgaben. Gerade weil Sprachmodelle zunehmend zu einem zentralen Bestandteil digitaler Werkzeuge werden, lohnt sich ein genauer Blick auf ihre Funktionsweise.
Moderne Sprachmodelle – sogenannte Large Language Models (LLMs) – sind KI-Systeme, die darauf trainiert wurden, Sprache zu analysieren, Muster in großen Textmengen zu erkennen und darauf basierend neue, sinnvolle Texte zu erzeugen. Sie können Fragen beantworten, Inhalte zusammenfassen, Anweisungen ausführen oder kreative Vorschläge formulieren. Dabei entsteht leicht der Eindruck, sie würden Sprache verstehen. Tatsächlich arbeiten diese Modelle jedoch nicht mit echtem Bedeutungsverständnis, sondern mit statistischen Zusammenhängen: Sie berechnen, welche Formulierungen mit hoher Wahrscheinlichkeit als nächstes auftreten sollten. Trotz dieser Einschränkung sind moderne LLMs leistungsfähige Werkzeuge, deren Fähigkeiten auf zwei grundlegenden Konzepten beruhen: der Tokenisierung und den hochdimensionalen Vektorrepräsentationen, mit denen das Modell intern arbeitet.
Der erste Schritt in der Textverarbeitung besteht darin, Wörter in Token zu zerlegen. Token fungieren als grundlegende Bausteine der Sprache. Ein Wort wie „Katze“ kann in die Token „kat“ und „ze“ zerlegt werden; ein zusammengesetztes Wort wie „Königshaus“ in „könig“ und „shaus“. Dieser Ansatz ist besonders wichtig für Sprachen wie Deutsch, in denen theoretisch unendlich viele neue Wörter entstehen können, weil sie sich flexibel zusammensetzen lassen. Würde ein Modell versuchen, jedes vollständige Wort einzeln zu kennen, müsste es Millionen möglicher Formen speichern. Durch Tokenisierung reduziert sich die Vielfalt auf rund 50.000 bis 100.000 Einheiten. Tokenisierung hat aber noch weitere große Vorteile, ohne die ein Sprachmodell nicht arbeiten könnte: Durch diese kann es auch neue Schreibvarianten und Begriffe, die beim Training noch nicht existierten, etwa Produktnamen, nachvollziehen und einordnen.
Jedes dieser Token wird anschließend in einen hochdimensionalen Vektor übersetzt, ein sogenanntes Embedding. In diesen Vektoren sind Informationen über Bedeutung, grammatische Rolle und typische Verwendungssituationen kodiert. Bei Modellen wie GPT-4 besitzt ein solcher Vektor rund 12.160 Dimensionen. Man kann sich diesen Raum als eine Landschaft vorstellen: Wörter mit ähnlicher Bedeutung liegen nahe beieinander („König“ und „Königin“), während weniger verwandte Begriffe weit voneinander entfernt sind („König“ und „Straße“). Diese Struktur entsteht nicht durch manuelle Kennzeichnung, sondern allein durch statistisches Lernen aus umfangreichen Textsammlungen.
Nachdem alle Token in Vektoren übersetzt wurden, gelangen sie in den sogenannten Transformer, das zentrale Bauteil moderner Sprachmodelle. Der Transformer besteht aus einer Vielzahl hintereinandergeschalteter Verarbeitungsschichten, die darauf ausgelegt sind, die Beziehungen zwischen Token zu analysieren und zu verstehen, um daraus Bedeutungsmuster abzuleiten. Ein entscheidender Bestandteil ist der Attention-Layer. Er versucht zu bestimmen, welche Wörter sich innerhalb eines Satzes gegenseitig beeinflussen. In einem Satz wie „Der Hund jagt die Katze“ muss das Modell erkennen, dass „jagt“ eng mit „Hund“ und „Katze“ zusammenhängt, da es deren Beziehung beschreibt. Das Wort „der“ hingegen trägt dabei beispielsweise eher wenig zum Verständnis des Satzes bei. Der Attention-Mechanismus erzeugt dazu aus jedem Token mithilfe gelernter Matrizen drei neue Vektor-Repräsentationen – Query-, Key- und Value-Vektoren – und berechnet anschließend mithilfe dieser Vektoren, welche Token einander besondere Aufmerksamkeit schenken sollten. Dadurch wird jedem Token Kontext zugewiesen, der es dem Modell ermöglicht, grammatische Rollen und inhaltliche Verknüpfungen zwischen Token zu erkennen.
Im nächsten Schritt folgt der Feed-Forward-Layer (FF), der jeden Tokenvektor einzeln weiterverarbeitet. Während der Attention-Layer nur eine Gewichtung schafft, die aussagt wie wichtig einzelne Token füreinander sind, ist es die Aufgabe des FF-Layers Verständnis des gesamten Satzes bzw. Textes herzustellen. Dazu überprüft er, welche internen Muster verstärkt und welche abgeschwächt werden sollten. Das macht er, indem er Aktivierungsfunktionen wie GELU (Gaussian Error Linear Unit) nutzt, um Muster in der Gewichtung der Dimensionen der Vektoren zu erkennen und basierend auf diesen Mustern gewisse charakteristische Merkmale hervorhebt. So können etwa stark ausgeprägte Dimensionen, die auf ein Verb hindeuten, verstärkt werden, während Merkmale, die eher zu einem Substantiv passen, abgeschwächt werden. Das Modell nähert sich dadurch einem immer besseren grammatischen Verständnis des Satzes an. Add- und Norm-Layer stellen sicher, dass wichtige Informationen aus vorherigen Schritten nicht verloren gehen und die numerischen Werte stabil bleiben.
Nach jedem Attention- und Feed-Forward-Layer folgt immer ein Add- und Norm-Layer. Der Add-Layer ist dafür zuständig, die ursprünglichen Vektoren zu erhalten, bevor sie durch Attention oder FF verändert werden. Dadurch gehen wichtige Informationen aus vorherigen Schritten nicht verloren. Der Norm-Layer sorgt dafür die Vektoren aus den Layern wieder auf reelle Werte zu normalisieren. Das ist nötig, da in Attention und FF mit riesigen Matrizen und Werten gerechnet wird, und so die Werte schon nach wenigen Rechenschritten gegen laufen. Mit solchen Werten sind keine weiteren Berechnungen möglich, deswegen werden sie durch den Norm-Layer verkleinert.
Während der Encoder den eingegebenen Text analysiert, erzeugt der Decoder neue Token. Der Prozess beginnt mit einem speziellen Startsignal, das dem Modell mitteilt, eine Ausgabe zu beginnen. Dieses Startsignal ist ebenfalls ein Vektor, nur eben ein möglichst neutraler, der durch Attention und FF leicht an seine vorangegangenen Vektoren angepasst werden kann. Anschließend berechnet das Modell für jedes mögliche Token eine Wahrscheinlichkeit dafür, wie gut es als nächstes in den entstehenden Text passen könnte. Statt jedoch immer den wahrscheinlichsten Token auszuwählen, arbeiten moderne Modelle mit Sampling-Verfahren. Würde man stets den wahrscheinlichsten Token verwenden, würden viele Ausgaben monoton, repetitiv oder unnatürlich wirken. Durch kontrollierte Zufälligkeit entstehen natürlichere und variantenreichere Formulierungen, wie sie auch im menschlichen Sprachgebrauch üblich sind. Dieser Vorgang – Analyse durch den Encoder, Generierung durch den Decoder – wird nicht nur einmal durchlaufen, sondern wandert durch hunderte gestapelte Transformer-Schichten. Modelle wie GPT-4 nutzen etwa 200 bis 250 solcher Schichten. Nach durchlaufen all dieser Schichten wird genau ein Token durch kontrollierte Wahrscheinlichkeit ausgewählt.
Trotz, oder gerade wegen dieser komplexen Architektur besitzen Sprachmodelle klare Grenzen. Eine davon ist das begrenzte Kontextfenster. Ein Modell kann immer nur eine bestimmte Menge an Text gleichzeitig berücksichtigen. Ähnlich wie Menschen nur einen begrenzten Ausschnitt eines Gesprächs aktiv im Gedächtnis behalten, „vergisst“ ein Sprachmodell frühere Teile eines langen Dialogs, sobald das Kontextfenster ausgeschöpft ist. Dies kann dazu führen, dass Bezüge zu älteren Gesprächsteilen verloren gehen.
Hinzu kommt, dass Sprachmodelle kein eigenes Verstädnis besitzen. Alles, was sie „wissen“, stammt aus statistischen Mustern der Trainingsdaten. Deswegen ist jedes Sprachmodell nur so gut wie die Trainingsdaten, mit dem es trainiert wurde. Fehlen bestimmte Informationen in diesen Daten, kann das Modell sie auch nicht zuverlässig wiedergeben. Der Aufwand für die Zusammenstellung solcher Daten ist enorm. Unternehmen wie OpenAI nutzen daher große Plattformen wie Reddit, um auf Texte zuzugreifen, die durch Nutzerbewertungen bereits eine gewisse Qualitätskontrolle erfahren haben.
Eine weitere Schwäche sind sogenannte Halluzinationen – Fälle, in denen das Modell Aussagen erfindet, die plausibel klingen, aber nicht der Realität entsprechen. Dies tritt vor allem bei Fragen auf, die eine klar richtige Antwort haben, etwa Geburtsdaten, Formeln oder Namen. Das Modell bevorzugt in der Regel, irgendeine Antwort zu geben, weil es im Training selten dafür belohnt wurde, Unwissen zuzugeben. Dadurch entstehen systematisch Antworten, die zwar sinnvoll erscheinen mögen, aber nicht korrekt sind.
Ein zusätzlicher limitierender Faktor ist der immense Ressourcenbedarf moderner Modelle. Sowohl das Training als auch der laufende Betrieb erfordern enorme Rechenleistung. Große Technologieunternehmen investieren daher Milliardenbeträge in den Bau neuer Rechenzentren. Ein Beispiel dafür ist das geplante Stargate-Projekt in Texas, bei dem zehn neue Rechenzentren entstehen sollen, deren jährlicher Stromverbrauch dem von mehreren Millionen Haushalten entspricht. Die Investitionskosten für dieses Projekt sollen circa 500 Milliarden US-Dollar betragen. Diese Größenordnungen erklären auch, weshalb die weltgrößten Tech-Unternehmen wie Microsoft mit Copilot, Google mit Gemini, X mit Grok und OpenAI mit ChatGPT Marktführer im Bereich der LLMs sind: Die Kosten sind hoch, die Margen aber klein, weswegen Sprachmodelle bisher kostentechnisch ein reines Verlustgeschäft sind und nur etablierte Unternehmen mit weiteren Standbeinen leistungsfähige LLMs für die Allgemeinheit zur Verfügung stellen können.
Abschließend lässt sich sagen: Sprachmodelle eignen sich hervorragend, um sich schnell in neue Themen einzuarbeiten, Texte zusammenzufassen, Informationen einzuordnen oder Entscheidungen vorzubereiten. Ihre Funktionsweise bringt jedoch auch Limitationen: Sie können nur einen begrenzten Kontext berücksichtigen, verfügen über kein eigenes Verständnis von Inhalten und neigen zu Halluzinationen, wenn ihnen verlässliche Informationen fehlen. Auch ihr hoher Ressourcenbedarf zeigt, dass es sich nicht um beliebig skalierbare Systeme handelt.
Gerade wegen dieser Limitationen sollten Sprachmodelle bewusst und mit Bedacht eingesetzt werden – als leistungsfähige Unterstützung, aber nicht als fehlerfreie Wissensquelle.
