HyperAI

Nur wenige Wochen nach dem OpenReview-Skandal, bei dem die Identitäten von Rezensenten massenhaft preisgegeben wurden, stößt ICLR erneut auf gravierende Probleme. Eine neue Untersuchung des AI-Content-Prüf-Unternehmens GPTZero deckt auf, dass mindestens 50 der 300 zufällig ausgewählten ICLR 2026-Beiträge offensichtliche KI-Phantome aufweisen – darunter gefälschte Literaturverweise, erfundene Autoren und erdichtete Experimentaldaten. In einigen Fällen erhielten solche Arbeiten bereits eine durchschnittliche Bewertung von 8,0, was in der ICLR-Skala zu den besten 1,8 Prozent der eingereichten Arbeiten zählt und sogar eine mündliche Präsentation (Oral) oder besondere Aufmerksamkeit (Spotlight) ermöglicht. Im August hatte ICLR strenge Regeln für den Einsatz von KI veröffentlicht, die klare Verantwortlichkeit der Autoren für alle KI-generierten Inhalte verlangten und das Erfinden von Daten oder irreführenden Aussagen untersagten. Doch die Realität zeigt, dass diese Maßnahmen kaum wirksam sind. GPTZero analysierte die Referenzen und fand, dass 16 % der geprüften Beiträge nicht überprüfbar waren. Bei einer Gesamtzahl von rund 19.500 Einreichungen könnte dies bedeuten, dass Tausende von Arbeiten mit schwerwiegenden wissenschaftlichen Fehlern im Review-Prozess stecken. Ein besonders auffälliges Beispiel ist die Arbeit „TamperTok“, die mit 8,0 bewertet wurde. Die Autoren zitieren eine NeurIPS-2023-Publikation mit korrektem Titel und Jahr, aber völlig falschen Autoren. Die echte Forschergruppe wurde durch erfundene Namen ersetzt – ein klassisches Beispiel für KI-Phantome, bei denen das Modell plausible, aber falsche Informationen zusammensetzt. Ähnlich verhält es sich mit „MixtureVitae“, bei der die ersten drei Autoren korrekt sind, die restlichen jedoch erfunden oder teilweise falsch. Diese „Mischform“ ist besonders schwer zu erkennen und nutzt die menschliche Neigung zur Annahme von Halbwahrheiten. Weitere Beispiele zeigen groteske Fehler: Eine Arbeit zitiert eine völlig erfundene Publikation, während eine andere mit dem Titel „Safe-LLM“ im Seitenkopf „Published at ICLR 2025“ steht, obwohl sie gerade im Review-Verfahren für 2026 ist. Ein weiterer Trick ist die Verwendung eines echten arXiv-ID, die auf eine existierende, aber inhaltlich völlig andere Arbeit verweist – ein „Hausmachertrick“, der auf Ermüdung und mangelnde Sorgfalt der Rezensenten setzt. Die steigende Zahl von Einreichungen (19.500) und Rezensionen (75.000) überlastet das System. Die Anzahl qualifizierter Rezensenten reicht nicht aus, was zu einer Verflachung der Qualität führt. Hinzu kommt, dass bis zu 21 % der Rezensionen möglicherweise selbst von KI generiert sind. So entsteht eine Spirale: KI wird zur Erstellung von Fälschungen genutzt, und KI wird auch zur Rezension eingesetzt – ohne echte kritische Prüfung. Die aktuelle Situation zeigt, dass moralische Verpflichtung und nachträgliche Sanktionen nicht ausreichen. Ohne technische Hilfsmittel zur automatischen Erkennung von KI-Phantomen, insbesondere bei Referenzen und Daten, bleibt das System gefährdet. Die Integrität von Forschung in der KI-Community steht auf dem Spiel, wenn wissenschaftliche Standards nicht effektiv geschützt werden.

Verwandte Links

Verwandte Links

Verwandte Links

EnergAIzer, Ein Von MIT Und Anderen Entwickeltes Framework Zur GPU-Leistungsschätzung, Führt Vorhersagen Im Durchschnitt in 1,8 Sekunden Mit Einem Fehler Von Ungefähr 81 TP3T durch.

EnergAIzer, Ein Von MIT Und Anderen Entwickeltes Framework Zur GPU-Leistungsschätzung, Führt Vorhersagen Im Durchschnitt in 1,8 Sekunden Mit Einem Fehler Von Ungefähr 81 TP3T durch.

Command Palette

ICLR 2026受信任危机：AI-Halluzinationen in hochbewerteten Beiträgen entdeckt

Verwandte Links

Command Palette

ICLR 2026受信任危机：AI-Halluzinationen in hochbewerteten Beiträgen entdeckt

Verwandte Links

Command Palette

ICLR 2026受信任危机：AI-Halluzinationen in hochbewerteten Beiträgen entdeckt

Verwandte Links

EnergAIzer, Ein Von MIT Und Anderen Entwickeltes Framework Zur GPU-Leistungsschätzung, Führt Vorhersagen Im Durchschnitt in 1,8 Sekunden Mit Einem Fehler Von Ungefähr 81 TP3T durch.

EnergAIzer, Ein Von MIT Und Anderen Entwickeltes Framework Zur GPU-Leistungsschätzung, Führt Vorhersagen Im Durchschnitt in 1,8 Sekunden Mit Einem Fehler Von Ungefähr 81 TP3T durch.