Stanford entdeckt gravierende Fehler in AI-Benchmarks
Bei einer umfassenden Analyse von Zehntausenden in der Künstlichen Intelligenz (KI) verwendeten Benchmarks hat ein Forschungsteam der Stanford University aufgedeckt, dass bis zu 5 Prozent dieser Tests gravierende Fehler aufweisen – sogenannte „fantastic bugs“. Diese Fehler, die von den Forschern humorvoll als Anspielung auf die „fantastischen Wesen“ aus dem Film-Universum bezeichnet werden, sind jedoch alles andere als harmlos. Sie beeinträchtigen die Glaubwürdigkeit von KI-Modellbewertungen massiv und können zu falschen Schlüssen über die Leistungsfähigkeit von KI-Systemen führen. Die Studie, präsentiert auf der NeurIPS 2025-Konferenz und als Preprint auf arXiv veröffentlicht, wurde von Sanmi Koyejo, Assistenzprofessorin für Informatik an Stanford, und ihrem Doktoranden Sang Truong aus dem STAIR-Labor (Stanford Trustworthy AI Research) durchgeführt. Benchmarks sind entscheidend für die Entwicklung und Bewertung von KI-Modellen – sei es bei Sprachverständnis, Bilderkennung oder medizinischer Diagnose. Doch mit der Explosion an verfügbaren Tests entsteht ein Problem: Welcher Benchmark ist zuverlässig? Die Forscher entdeckten, dass bei bis zu 1 von 20 Benchmarks systematische Fehler vorliegen, die zu falschen Bewertungen führen. So wurden Modelle fälschlicherweise schlechter bewertet, während unterdurchschnittliche Systeme durch ungenaue Testabfragen irrtümlich als überlegen erschienen. In einem Fall stieg das Modell DeepSeek-R1 von Platz drei unten auf Platz zwei, nachdem der Benchmark korrigiert wurde – ein klarer Hinweis auf die Auswirkungen solcher Fehler. Die „fantastic bugs“ nehmen vielfältige Formen an: von fehlerhaften Beschriftungen und logischen Widersprüchen über kulturell voreingenommene Fragen bis hin zu technischen Formatierungsproblemen, bei denen korrekte Antworten fälschlicherweise als falsch gewertet werden (z. B. „5 dollars“ statt „$5“). Diese Fehler beeinflussen nicht nur die Bewertung einzelner Modelle, sondern haben weitreichende Folgen für Forschungsförderung, Ressourcenallokation und die Entscheidung, ob ein Modell überhaupt veröffentlicht wird. Um diese Probleme zu identifizieren, kombinierten Koyejo und Truong klassische statistische Methoden aus der Messungstheorie mit einem großen Sprachmodell (LLM), das potenziell fehlerhafte Fragen ausfindig machte und begründete, warum sie einer menschlichen Überprüfung bedürfen. Ihre Methode erreichte eine Präzision von 84 Prozent – mehr als 80 Prozent der zur Überprüfung vorgeschlagenen Fragen enthielten tatsächlich nachweisbare Fehler. Dadurch wird der menschliche Review-Prozess deutlich effizienter. Die Forscher setzen nun darauf, mit Benchmark-Entwicklern zusammenzuarbeiten, um die Fehler zu beheben und einen Übergang vom heutigen „publish-and-forget“-Ansatz hin zu einer kontinuierlichen Pflege und Verbesserung von Benchmarks zu erreichen. Die Reaktion der Community ist gemischt: Während die Notwendigkeit zuverlässiger Messungen anerkannt wird, fehlt oft der Wille zu dauerhafter Verantwortung. Koyejo hofft, dass ihre Methode zur Standardpraxis wird, um die Glaubwürdigkeit der KI-Entwicklung insgesamt zu stärken. In einer Zeit, in der KI zunehmend in Gesundheitswesen, Bildung und Verwaltung eingebunden wird, könnte diese Verbesserung entscheidend sein für sicherere, leistungsfähigere und vertrauenswürdigere Systeme. Die Stanford-Forschenden stellen damit einen wichtigen Meilenstein in der Entwicklung einer verantwortungsvollen und transparenten KI-Benchmarking-Praxis dar – eine Grundlage für eine nachhaltige und ethisch fundierte KI-Revolution.
