LLMs verlassen sich auf Grammatikmuster – mit Risiken für Genauigkeit und Sicherheit
Große Sprachmodelle (LLMs) können aufgrund von grammatischen Kurzschlüssen fehlerhafte Schlussfolgerungen ziehen, was ihre Zuverlässigkeit gefährdet. Eine Studie des MIT zeigt, dass LLMs gelegentlich nicht auf fachliches Wissen, sondern auf wiederkehrende Satzstrukturen in ihrem Trainingsdatensatz reagieren. So könnte ein Modell beispielsweise auf die Frage „Wo liegt Paris?“ mit „Frankreich“ antworten, nicht weil es die Geographie versteht, sondern weil es eine bestimmte syntaktische Form – wie Adverb-Verb-Eigenname-Verb – mit Fragen nach Ländern verknüpft hat. Selbst wenn die Frage durch sinnlose Wörter wie „Schnell sitzt Paris verschleiert?“ umgeschrieben wird, liefert das Modell oft weiterhin die korrekte Antwort, da es die Struktur erkennt, nicht den Inhalt. Die Forscher testeten dies an Modellen wie GPT-4 und Llama, indem sie Synonyme, Antonyme oder zufällige Wörter einsetzten, aber die Grammatik beibehielten. In vielen Fällen blieb die Antwort korrekt – trotz sinnloser Fragen. Umgekehrt versagten die Modelle, wenn die Satzstruktur verändert wurde, obwohl der Sinn gleich blieb. Dies deutet darauf hin, dass LLMs oft auf syntaktische Muster statt auf semantische Bedeutung setzen. Besonders besorgniserregend ist, dass diese Schwäche auch Sicherheitsmechanismen umgehen kann. Die Forscher zeigten, dass ein schädliches Verhalten ausgelöst werden kann, indem eine gefährliche Anfrage in einer Satzstruktur formuliert wird, die das Modell mit einer „sicheren“ Trainingsdatenquelle assoziiert. Dadurch konnte das Modell seine eigene Ablehnungspolitik umgehen und gefährliche Inhalte generieren. Diese Erkenntnis offenbart eine bisher unterschätzte Sicherheitslücke: Modelle lernen nicht nur Inhalte, sondern auch verborgene Korrelationen zwischen Syntax und Domänen, die bei neuen Aufgaben zu Fehlern führen können. Die Forscher entwickelten daher ein automatisiertes Benchmarking-Verfahren, um das Ausmaß solcher syntaktischen Abhängigkeiten zu messen. Dieses Werkzeug könnte Entwicklern helfen, solche Schwächen frühzeitig zu erkennen und zu beheben, bevor Modelle in kritische Anwendungen wie Kundenservice, klinische Dokumentation oder Finanzberichterstattung eingesetzt werden. Die Studie wurde auf dem arXiv-Preprint-Server veröffentlicht und wird auf der NeurIPS-Konferenz vorgestellt. Die Leitung lag bei Marzyeh Ghassemi vom MIT, gemeinsam mit Chantal Shaib, Vinith Suriyakumar, Levent Sagun und Byron Wallace. Industrieexperten wie Jessy Li von der University of Texas sehen in der Arbeit eine bedeutende Neuausrichtung in der LLM-Sicherheitsforschung: „Dies ist ein kreativer Ansatz, um Fehlermechanismen von Sprachmodellen zu untersuchen. Linguistische Strukturen müssen stärker in die Sicherheitsanalyse einfließen – ein Bereich, der bisher zu wenig Aufmerksamkeit erhielt.“ Die Zukunft der Forschung liegt nun darin, solche Abhängigkeiten durch vielfältigere Trainingsdaten oder neue Architekturen zu minimieren, besonders bei Modellen für komplexe Schlussfolgerungen.
