HyperAI超神经

Eine Gruppe von Forschern aus dem Massachusetts Institute of Technology (MIT) hat neue Erkenntnisse über die Arbeitsweise von Sprachmodellen wie ChatGPT gemacht. Diese Modelle, die auf Transformer-Architekturen basieren, sind dafür bekannt, sequenzielle Daten zu verstehen, aber ihre Vorhersagen können manchmal durch fehlerhafte Denkmuster ungenau sein. Die Studie, die im arXiv-Preprint-Server veröffentlicht wurde, untersucht, wie diese Modelle Änderungen in einer Situation verfolgen und letztendlich korrekte Vorhersagen machen. Die Forscher haben zwei Hauptmuster identifiziert, die Sprachmodelle verwenden, um die endgültige Anordnung von Zahlen (Permutationen) zu erraten: den "Associativen Algorithmus" und den "Parity-Associativen Algorithmus". Beide Algorithmen organisieren Informationen in Hierarchien, anstatt Schritt für Schritt voranzuschreiten. Der "Associative Algorithm" strukturiert die Prozesse wie ein Baum. Das anfängliche Zahlenarrangement bildet den "Stamm", und benachbarte Schritte werden in verschiedene Zweige aufgeteilt und multipliziert. Am oberen Ende des Baumes wird die finale Kombination der Zahlen berechnet, indem die Ergebnisse aller Zweige zusammengefasst werden. Dieser Algorithmus lernt schneller und performt besser bei längeren Sequenzen. Der "Parity-Associative Algorithm" verwendet zunächst eine Heuristik, um zu bestimmen, ob die finale Anordnung das Ergebnis einer geraden oder ungeraden Anzahl von Umstellungen ist. Danach gruppieren und multiplizieren die Modelle benachbarte Sequenzen ähnlich wie beim "Associative Algorithm". Allerdings zeigen die Forscher, dass dieser Algorithmus Schwierigkeiten hat, wenn die Anweisungen komplexer werden, da er stärker auf Heuristiken als auf genauen Berechnungen zurückgreift. Um diese Algorithmen zu analysieren, verwendeten die Forscher zwei Methoden: "Probing" und "Activation Patching". "Probing" zeigt, welche Informationen durch das System fließen, und ermöglicht es, die Vorhersagen des Modells während des Experiments zu kartieren. "Activation Patching" dagegen stört bewusst Teile des Netzwerks, indem falsche Informationen eingeführt werden, während andere Teile konstant bleiben. Dies hilft, zu verstehen, wo und wie das Modell Fehler macht und wann es lernen kann, die korrekten Permutationen zu erraten. Die Ergebnisse der Studie deuten darauf hin, dass Sprachmodelle Simulationen durch assoziatives Scannen durchführen. Anstatt Schritt für Schritt die Veränderungen zu verfolgen, organisieren sie die Informationen in Hierarchien. Dies könnte erklären, warum sie manchmal zu Fehlern neigen, insbesondere bei komplexen Aufgaben. Belinda Li, eine Doktorandin am MIT und Co-Autorin des Papers, betont, dass es sinnvoll sein könnte, die natürlichen Ansätze der Modelle zu fördern, anstatt sie dazu zu zwingen, sequenziell zu denken. Eine mögliche Forschungsrichtung besteht darin, die Testzeitrechnung entlang der Tiefe zu erweitern, indem die Anzahl der Transformer-Layers erhöht wird, anstatt die Anzahl der Tokens während der Testzeit. Dies würde den Modellen ermöglichen, tiefergehende Beweisbäume aufzubauen. Die Arbeit des Teams zeigt auch, dass Sprachmodelle, die in den frühen Trainingsphasen Heuristiken verwenden, diese oft in ihre Mechanismen einbauen. Dies führt jedoch zu schlechteren Generalisierungsfähigkeiten. Li und ihre Kollegen schlagen daher vor, bestimmte Prätrainingsziele zu entwickeln, die die Modelle davon abhalten, solche "Schlechtgewohnheiten" zu entwickeln. Die Experimente wurden an kleineren Sprachmodellen durchgeführt, die auf synthetischen Daten feinjustiert wurden. Trotzdem deutet die Studie darauf hin, dass das Modellgröße kaum Einfluss auf die Ergebnisse hatte. Daher erwarten die Forscher, dass ähnliche Ergebnisse auch bei größeren Modellen wie GPT 4.1 zu beobachten sein werden. Als nächstes planen sie, Modelle unterschiedlicher Größe ohne Feinjustierung zu testen und ihre Leistung bei dynamischen realweltlichen Aufgaben wie Code-Tracking und Story-Evolution zu evaluieren. Keyon Vafa, Postdoc an der Harvard University, der nicht an der Studie beteiligt war, betont die Bedeutung dieser Erkenntnisse. Viele Anwendungen großer Sprachmodelle hängen von der Fähigkeit ab, Zustände zu verfolgen, sei es bei Rezepten, beim Schreiben von Code oder bei Gesprächen. Die Studie bietet wertvolle Einblicke in die Arbeitsweise der Modelle und eröffnet neue Strategien zur Verbesserung ihrer Leistung. Das MIT, bekannt für seine Pionierarbeit in der Informatik und künstlichen Intelligenz, hat mit dieser Studie wieder einmal wichtige Fortschritte in der Verständnis und Optimierung von Sprachmodellen erzielt. Die Ergebnisse könnten weitreichende Auswirkungen haben, insbesondere bei anwendungsorientierten Aufgaben, die von der Zuverlässigkeit der Zustandssimulation abhängen.

Künstliche Intelligenz nutzt baumartige Mathematik für Prognosen.

Related Links