Fälschliche Zitierungen in NeurIPS-Papieren: AI-Blödsinn unter Top-Forschern
Einige der weltweit führenden KI-Forscher haben offenbar falsche Zitierungen in ihren Beiträgen zu NeurIPS, der renommierten Konferenz für neuronale Informationsverarbeitung, verwendet – ein Ironie-Ereignis, das die Grenzen der KI-Nutzung im wissenschaftlichen Kontext aufzeigt. Der KI-Detektionsanbieter GPTZero hat alle 4.841 akzeptierten Papers der NeurIPS-Konferenz aus dem vergangenen Monat in San Diego auf falsche oder „halluzinierte“ Zitierungen untersucht und 100 solcher gefälschter Quellen in 51 Arbeiten identifiziert. Obwohl die Zahl statistisch gesehen gering erscheint – bei Dutzenden von Zitierungen pro Paper und insgesamt Zehntausenden – ist das Phänomen dennoch beunruhigend. Denn NeurIPS gilt als eine der höchsten Instanzen der KI-Forschung, und die Akzeptanz eines Beitrags ist ein bedeutender Karriereerfolg. Die Forscher, die dort publizieren, gelten als Experten, deren Arbeit auf Genauigkeit und wissenschaftlicher Integrität beruht. Dennoch ist die Entdeckung kein Beweis für systematische Fälschung, sondern vielmehr ein Warnsignal. Wie NeurIPS gegenüber Fortune betont, gilt die Forschung selbst nicht als ungültig, nur weil einzelne Zitierungen falsch sind. Zitierungen sind jedoch mehr als nur formale Elemente: Sie fungieren als wissenschaftliche Währung, zeigen Einfluss und Relevanz und werden bei Karriereentscheidungen berücksichtigt. Wenn KI-Tools wie Large Language Models (LLMs) fiktive Literatur generieren, verfälschen sie diesen Wert und schädigen das Vertrauen in die wissenschaftliche Öffentlichkeit. Die Herausforderung liegt in der Skalierung: Die Anzahl der Einreichungen bei Konferenzen wie NeurIPS ist explosionsartig gestiegen – ein „Einreichungstsunami“, wie GPTZero es nennt –, der die Peer-Review-Systeme überfordert. Auch die Gutachter können nicht alle Zitierungen manuell überprüfen, besonders wenn die falschen Quellen plausibel klingen. GPTZero weist darauf hin, dass bereits im Mai 2025 ein Paper mit dem Titel „The AI Conference Peer Review Crisis“ das Problem aufgegriffen hatte und auf die Belastung der Rezensionsprozesse aufmerksam gemacht hatte. Dennoch bleibt die Frage: Warum haben die Forscher selbst nicht nachgeprüft? Sie sollten die von ihnen zitierten Arbeiten kennen. Die Antwort liegt in der Selbstverständlichkeit der KI-Nutzung: Viele Forscher nutzen LLMs, um Literaturrecherche, Formulierungen oder sogar Strukturen zu beschleunigen – oft ohne die Ergebnisse kritisch zu hinterfragen. Die Ironie ist also groß: Diejenigen, die die KI entwickeln und überwachen sollen, sind selbst Opfer der eigenen Technologie. Experten sehen darin ein Warnzeichen für die gesamte Wissenschaft: Wenn die Besten nicht sicherstellen können, dass ihre Zitierungen korrekt sind, wie vertrauenswürdig sind dann die Ergebnisse anderer? Die Studie unterstreicht, dass KI-Tools zwar produktiv, aber nicht vertrauenswürdig sind, wenn sie nicht sorgfältig kontrolliert werden. Für die Zukunft bedeutet das: Mehr Transparenz, stärkere Verantwortung der Forscher und möglicherweise neue Prüfverfahren, um KI-Generierte Inhalte zu erkennen – auch in der Hochschul- und Forschungswelt.
