KI-generierte Gutachten bei ICLR: Forscher entlarven Massenverwendung von KI im Peer-Review-Prozess
Bei der International Conference on Learning Representations (ICLR) 2026, die im April in Rio de Janeiro stattfinden wird, ist ein massiver Skandal um künstliche Intelligenz (KI) in der Begutachtung von Forschungsarbeiten aufgedeckt worden. Dutzende Wissenschaftler meldeten auf sozialen Medien, dass ihre Manuskripte mit ungewöhnlich langen, vagen und oft fehlerhaften Begutachtungen zurückkamen – unter anderem mit erfundenen Zitaten und unpassenden Anforderungen an statistische Analysen. Graham Neubig von der Carnegie Mellon University war einer der Betroffenen und vermutete, dass die Berichte mit Hilfe großer Sprachmodelle (LLMs) verfasst wurden. Um Beweise zu sammeln, bot er eine Belohnung für die Analyse aller 19.490 eingereichten Arbeiten und 75.800 Begutachtungen. Max Spero, CEO von Pangram Labs, reagierte innerhalb von 12 Stunden und nutzte die KI-Detektions-Tools seines Unternehmens, um die gesamte Textmenge zu scannen. Die Analyse ergab, dass rund 21 % der Begutachtungen vollständig von KI generiert waren, und über die Hälfte enthielt deutliche Hinweise auf KI-Beitrag. Zudem wurden 199 Manuskripte (1 %) als vollständig KI-erstellt identifiziert, während 9 % mehr als 50 % KI-Text enthielten. Die Ergebnisse wurden öffentlich veröffentlicht. Die ICLR-Organisatoren erklärten, künftig automatisierte Tools zur Überprüfung von KI-Nutzung in Beiträgen und Begutachtungen einzusetzen. Dies sei die erste große Herausforderung dieser Art für die Konferenz, sagte Bharath Hariharan, Senior Programme Chair der ICLR 2026. Einige Forscher bestätigten ihre Befürchtungen: Desmond Elliott von der Universität Kopenhagen erhielt eine Begutachtung, die falsche Zahlen nannte und ungewöhnliche Formulierungen enthielt. Nach der Pangram-Analyse wurde diese als vollständig KI-generiert klassifiziert – und verlieh dem Paper die niedrigste Bewertung. „Es ist tief enttäuschend“, sagte Elliott. Die Entwicklung wirft ernsthafte Fragen zur Integrität der wissenschaftlichen Begutachtung auf, besonders in einem Bereich wie der KI-Forschung, wo die Qualität der Peer-Review-Prozesse entscheidend ist. Die Reaktion der Community war gemischt: Während viele Forscher die Transparenz und die Nutzung von Detektionstools begrüßten, warnen Experten vor einer KI-gesteuerten „Begutachtungskrise“. Die Entwicklung zeigt, dass KI nicht nur bei der Erstellung von Forschungsarbeiten, sondern auch im wissenschaftlichen Review-Prozess zunehmend Einzug hält – mit potenziell schwerwiegenden Folgen für die Glaubwürdigkeit der Wissenschaft. Pangram Labs hat seine Methode in einer Preprint-Publikation vorgestellt, die selbst zur ICLR 2026 eingereicht wurde, was die Spannweite des Phänomens unterstreicht. Die ICLR-Organisatoren planen nun, die Ergebnisse systematisch zu prüfen und möglicherweise betroffene Arbeiten zu revidieren. Die gesamte Episode markiert einen Wendepunkt in der Diskussion um KI in der Wissenschaft – und unterstreicht die dringende Notwendigkeit klarer Richtlinien und technischer Kontrollen.
