HyperAI

Forscher der Saarland-Universität und des Max-Planck-Instituts für Software-Systeme haben erstmals nachgewiesen, dass Menschen und große Sprachmodelle (LLMs) bei der Lektüre verwirrender Programmcode ähnliche Reaktionen zeigen. Unter der Leitung von Professor Sven Apel vom Lehrstuhl für Software Engineering und der Forscherin Mariya Toneva am Max-Planck-Institut untersuchten sie, wie menschliche Gehirnaktivität und die Unsicherheit von KI-Modellen auf sogenannte „Stolpersteine“ im Code reagieren. Diese Stolpersteine, auch als „Atoms of Confusion“ bekannt, sind kurze, syntaktisch korrekte Code-Passagen, die selbst erfahrene Entwickler täuschen können. Die Studie nutzte Daten aus einer vorherigen EEG- und Augenverfolgungsstudie, in der Teilnehmer sowohl klare als auch verwirrende Codevarianten lasen. Gleichzeitig analysierten die Forscher die Modellunsicherheit der LLMs mithilfe der Perplexität – einem etablierten Maß für die Vorhersageunsicherheit von Sprachmodellen. Die Ergebnisse zeigten eine starke Korrelation: Wo Menschen durch erhöhte Gehirnaktivität (insbesondere das späte frontale Positivitäts-Potential, das mit unerwarteten Sprachelementen assoziiert wird) auf verwirrende Stellen reagierten, stiegen auch die Perplexitätswerte der Modelle deutlich an. Youssef Abdelsalam, der im Rahmen seiner Promotion die Studie maßgeblich betreute, betont: „Wir waren erstaunt, wie gut die Spikes in der Gehirnaktivität und der Modellunsicherheit übereinstimmten.“ Auf dieser Übereinstimmung basierend entwickelten die Forscher ein datenbasiertes Verfahren, das unklare Codeabschnitte automatisch erkennt und hervorhebt. In über 60 Prozent der Fälle identifizierte das Verfahren bereits bekannte, manuell annotierte Verwirrungsmuster – zudem entdeckte es mehr als 150 bisher unbekannte, aber ebenfalls mit erhöhter Gehirnaktivität assoziierte Muster. „Mit dieser Arbeit schaffen wir eine Brücke zwischen Neurowissenschaft, Software-Engineering und KI“, sagt Mariya Toneva. Sven Apel ergänzt: „Wenn wir verstehen, wo und warum Mensch und KI an denselben Stellen hängenbleiben, können wir Werkzeuge entwickeln, die den Code verständlicher machen und die Zusammenarbeit zwischen Mensch und KI erheblich verbessern.“ Die Studie wurde für die renommierte Konferenz ICSE (International Conference on Software Engineering) akzeptiert und markiert einen bedeutenden Schritt hin zu menschzentrierten KI-Unterstützungssystemen im Software-Entwicklungsumfeld. Die Ergebnisse werden von Branchenexperten als bahnbrechend angesehen. Experten betonen, dass die Fähigkeit, menschliche kognitive Schwierigkeiten in Code vorherzusagen, die Entwicklung intelligenterer Code-Editor-Tools und KI-Partner für Entwickler revolutionieren könnte. Die enge Verknüpfung von Neurowissenschaft und KI-Modellierung eröffnet neue Wege für die Gestaltung mensch-technologischer Interaktionen. Die Saarland-Universität und das Max-Planck-Institut gelten als führende Institutionen in der Forschung zu Software-Engineering und künstlicher Intelligenz, wodurch die Studie nicht nur wissenschaftlich, sondern auch praxisnah von großer Bedeutung ist.

Verwandte Links

Verwandte Links

Verwandte Links

Online-Tutorial | Basierend Auf 5 Millionen Stunden Sprachdaten Erreicht Qwen3-TTS Eine 3-Sekunden-Stimmklonierung Und -Feinabstimmung.

Online-Tutorial | Basierend Auf 5 Millionen Stunden Sprachdaten Erreicht Qwen3-TTS Eine 3-Sekunden-Stimmklonierung Und -Feinabstimmung.

Command Palette

Mensch und KI zeigen gleiche Verwirrung bei tricky Code

Verwandte Links

Command Palette

Mensch und KI zeigen gleiche Verwirrung bei tricky Code

Verwandte Links

Command Palette

Mensch und KI zeigen gleiche Verwirrung bei tricky Code

Verwandte Links

Online-Tutorial | Basierend Auf 5 Millionen Stunden Sprachdaten Erreicht Qwen3-TTS Eine 3-Sekunden-Stimmklonierung Und -Feinabstimmung.

Online-Tutorial | Basierend Auf 5 Millionen Stunden Sprachdaten Erreicht Qwen3-TTS Eine 3-Sekunden-Stimmklonierung Und -Feinabstimmung.