Studie zeigt, wie KI bei Sprachverstehen von Position zu Bedeutung wechselt.
Von der Position zur Bedeutung: Wie KI lernt zu lesen Die sprachlichen Fähigkeiten heutiger künstlicher Intelligenz-Systeme sind beeindruckend. Wir können nun flüssige Konversationen mit Systemen wie ChatGPT, Gemini und vielen anderen führen, die fast menschlich wirken. Dennoch wissen wir noch sehr wenig über die internen Prozesse in diesen Netzwerken, die zu solchen bemerkenswerten Resultaten führen. Eine Studie mit dem Titel "Ein Phasenübergang zwischen positionalem und semantischen Lernen in einem löslichen Modell des Skalarprodukts der Aufmerksamkeit," veröffentlicht im Journal of Statistical Mechanics: Theory and Experiment, lüftet einen Teil dieses Geheimnisses. Sie zeigt, dass bei der Verwendung kleiner Datenmengen neuronale Netze zunächst auf die Position von Wörtern in einem Satz zurückgreifen. Sobald das System jedoch ausreichend Daten erhält, wechselt es plötzlich zu einer Strategie, die sich auf die Bedeutung der Wörter stützt. Dieser Übergang erfolgt abrupt, sobald eine kritische Datenmenge erreicht ist—ähnlich einem Phasenübergang in physikalischen Systemen. Die Erkenntnisse bieten wertvolle Einblicke in das Funktionieren dieser Modelle. Ebenso wie ein Kind beim Lesenlernen, beginnen neuronale Netze damit, Sätze basierend auf den Positionen der Wörter zu verstehen: Je nachdem, wo sich die Wörter im Satz befinden, kann das Netz ihre Beziehungen (Sind sie Subjekt, Verb oder Objekt?) ableiten. Mit fortschreitender Ausbildung—das Netz „geht weiter zur Schule“—tritt jedoch eine Veränderung ein: Die Bedeutung der Wörter wird zur Hauptquelle der Information. In dieser neuen Studie wird erklärt, was in einem vereinfachten Modell des Selbst-Aufmerksamkeitsmechanismus passiert. Dieser Mechanismus ist ein zentrales Bauteil von Transformer-Sprachmodellen, wie sie in ChatGPT, Gemini, Claude und anderen Anwendungen eingesetzt werden. Transformatoren sind Neuronen-Netz-Architekturen, die darauf ausgelegt sind, Folgen von Daten wie Text zu verarbeiten. Sie spezialisieren sich darauf, Beziehungen innerhalb einer Sequenz zu verstehen und verwenden den Selbst-Aufmerksamkeitsmechanismus, um die Bedeutung jedes Wortes im Verhältnis zu den anderen zu bewerten. Hugo Cui, Postdoktorand an der Harvard University und erster Autor der Studie, erklärt: "Um die Beziehungen zwischen Wörtern zu bewerten, kann das Netz zwei Strategien anwenden, eine davon ist die Nutzung der Positionen der Wörter." In Sprachen wie dem Englischen steht das Subjekt typischerweise vor dem Verb, das wiederum vor dem Objekt steht. Ein einfaches Beispiel dafür ist der Satz "Mary eats the apple" (Mary isst den Apfel). "Diese erste Strategie entsteht spontan, wenn das Netz trainiert wird," fährt Cui fort. "Allerdings konnten wir in unserer Studie beobachten, dass, wenn das Training fortgesetzt wird und das Netz genug Daten erhält, an einem bestimmten Punkt—sobald eine Schwelle überschritten ist—die Strategie plötzlich wechselt: Das Netz beginnt, sich auf die Bedeutung statt auf die Position zu stützen." "Beim Entwurf dieser Arbeit wollten wir einfach untersuchen, welche Strategien oder Mischstrategien die Netze anwenden würden. Was wir jedoch fanden, war überraschend: Unter einer bestimmten Schwelle griff das Netz ausschließlich auf Position zurück, während darüber hinaus nur die Bedeutung relevant war." Cui beschreibt diesen Wechsel als Phasenübergang, eine Analogie aus der Physik. Die statistische Physik studiert Systeme, die aus enormen Mengen von Teilchen (wie Atomen oder Molekülen) bestehen, indem sie ihr kollektives Verhalten statistisch beschreibt. Ähnlich wie bei neuronalen Netzen, die die Grundlage dieser KI-Systeme bilden, sind diese aus einer großen Anzahl von Knoten oder Neuronen zusammengesetzt, die jeweils viele andere verbunden sind und einfache Operationen durchführen. Die Intelligenz des Systems entsteht aus der Interaktion dieser Neuronen, ein Phänomen, das sich mit statistischen Methoden beschreiben lässt. Daher kann man von einem abrupten Verhaltenswechsel in Netzwerken als Phasenübergang sprechen, ähnlich dem Übergang von Wasser von flüssig zu gasförmig unter bestimmten Temperaturen und Drücken. "Es ist wichtig, theoretisch zu verstehen, dass der Strategiewechsel auf diese Weise stattfindet," betont Cui. "Obwohl unsere Netze vereinfacht sind im Vergleich zu den komplexen Modellen, die Menschen täglich nutzen, können sie uns Hinweise geben, um die Bedingungen zu verstehen, die dazu führen, dass ein Modell eine Strategie gegenüber der anderen bevorzugt. Diese theoretischen Erkenntnisse könnten in Zukunft dazu beitragen, den Einsatz von neuronalen Netzen effizienter und sicherer zu gestalten." Die Studie liefert also wertvolle Einblicke in die interne Funktionsweise von Sprachmodellen und könnte zu besseren Trainingsmethoden und sichereren Anwendungen führen. Hugo Cuis Forschung am Harvard University Institute of Quantitative Social Science (IQSS) konzentriert sich auf die mathematische Modellierung von sozialen und sprachlichen Phänomenen, was ihm half, diese komplexen Zusammenhänge aufzudecken. Die Ergebnisse der Studie sind für die Industrie bedeutungsvoll, da sie ein besseres Verständnis der Lernprozesse in KI-Systemen ermöglichen und dabei helfen, die Effizienz und Sicherheit dieser Technologien zu verbessern. Cui und sein Team hoffen, dass ihre Arbeit als Grundlage für weiterführende Forschungen dienen wird, die letztendlich zur Entwicklung robusterer und verlässlicherer Sprachmodelle führen.