LLM-Aufmerksamkeit versagt
Forschende der CUNY Queens College haben in einer jüngsten Studie die Aufmerksamkeitsmechanismen moderner Large Language Models auf ihre Störresistenz untersucht. Mithilfe des klassischen Stroop-Tests evaluierten sie Modelle wie GPT-4o, Claude 3.5 Sonnet sowie neuere Generationen wie GPT-5, Claude Opus 4.1 und Gemini 2.5 Pro. Der kognitionspsychologische Test prüft die Fähigkeit, automatische Lesereflexe zu unterdrücken und bei widersprüchlichen visuellen Informationen den Fokus aufzurechterhalten. Im Versuch verarbeiteten die Sprachmodelle Listen aus Farb-Wort-Kombinationen, bei denen Textinhalt und Tintenschriftfarbe teils konflikthaft waren. Die Forschenden variierten die Sequenzlänge schrittweise von fünf auf vierzig Einträge. Bei kurzen Listen erreichten die Modelle Trefferquoten von bis zu 91 Prozent. Mit steigender Datenmenge brach die Leistung jedoch drastisch ein. Bei vierzig Einträgen sank die Genauigkeit von GPT-4o auf 15 Prozent und von Claude 3.5 Sonnet auf 24 Prozent. Kontrolltests schlossen visuelle Kodierungsfehler oder ein Überlaufen des Kontextfensters als Ursachen aus, da reine Leseaufgaben mit über 90 Prozent stabil blieben. Das Defizit ist somit spezifisch auf die Unfähigkeit der Modelle zurückzuführen, kognitive Konflikte bei längeren Eingabeströmen aufzulösen. Die Analyse zeigt, dass die Transformer-Architektur auf statistischen Gewichtungsmustern basiert. Es fehlt ein dynamisches, zielführendes Kontrollsystem, das menschliche Gehirne zur Bewältigung von Störreizen aktivieren. Selbst die Aktivierung von Reasoning-Prozessen führte dazu, dass Modelle interne Schwächen umgingen und externe Code-Ausführung nutzten, anstatt ihre Aufmerksamkeit adaptiv zu regulieren. Die Studie belegt, dass eine reine Skalierung von Daten und Parametern diese fundamentale Limitierung nicht behebt. Stattdessen erfordern robuste KI-Systeme architektonische Innovationen wie selektive Aufmerksamkeitsverfahren, differenzielle Transformer-Ansätze oder explizite Gate-Mechanismen, die biologisch inspirierten Steuerungsnetzwerken ähneln. Kognitive Psychotests erweisen sich dabei als wertvolle Diagnoseinstrumente, um KI-Entscheidungsprozesse unter Reallast zu bewerten. Die Zukunftsforschung muss sich weg von reinem Skalieren hin zu aktiven, zielstabilisierenden Architekturen bewegen, um KI-Systemen nicht nur kontextuelles Verstehen, sondern nachhaltige Konzentrationsfähigkeit zu verleihen.
