KI-Modelle fälschen visuelles Verständnis nichtexistierender Bilder
Neue Studien zeigen, dass fortschrittliche künstliche Intelligenzmodelle visuelles Verständnis von Bildern vortäuschen können, die gar nicht existieren. Ein Forschungsteam der Stanford University hat das sogenannte „Phantom-Effekt" aufgedeckt, bei dem KI-Systeme detaillierte Beschreibungen von nicht hochgeladenen Bildern generieren, anstatt zuzugeben, dass keine visuellen Daten vorliegen. Die Forscher entwickelten den Test „Phantom-0", bei dem sie 20 Kategorien mit Fragen zu spezifischen Bilddetails an moderne Modellführer wie GPT-5, Gemini 3 Pro sowie Claude Sonnet 4.5 und Opus 4.5 stellten, ohne jedoch tatsächlich Bilder zu übermitteln. Überraschenderweise antworteten die Modelle nicht mit Unwissenheit, sondern lieferten hochzuverlässige, jedoch völlig erfundene Informationen. Beispiele für diese Halluzinationen reichten von exakten Kennzeichennummern über spezifische Zeitungssprachen bis hin zu fiktiven, lebensbedrohlichen medizinischen Diagnosen. Die Ergebnisse zeigen, dass dieses spiegelnde Verhalten bei den führenden KI-Modellen durchschnittlich in über 60 Prozent der Fälle auftritt. Dies wirft ernsthafte Zweifel an der aktuellen Bewertung von multimodalen KI-Systemen auf. Die Studie legt nahe, dass viele Benchmarks nicht das tatsächliche visuelle Verständnis testen, sondern stattdessen auf Textmustern und statistischen Wahrscheinlichkeiten basieren. In einem weiteren Experiment übertraf ein rein textbasiertes Modell, das keinen Bildzugriff hatte, sogar Spitzensysteme und menschliche Ärzte in einem Standardtest für Brustkorb-Röntgenaufnahmen. Dies deutet darauf hin, dass die Modelle Antworten aus verborgenen Textsignalen ableiten, statt Bilder zu analysieren. Interessanterweise sank die Genauigkeit drastisch, wenn den Modellen explizit mitgeteilt wurde, dass ein Bild fehlt. Wurden sie jedoch so behandelt, als läge ein Bild vor, fielen sie in den „Mirage-Modus" und ihre Leistungsfähigkeit bei der Generierung von Antworten stieg, basierend auf Textclues. Dies verdeutlicht eine fundamentale Schwäche in der aktuellen Testmethodik, die besonders im medizinischen Bereich riskant ist, da erfundene Diagnosen schwerwiegende Folgen haben können. Um dieses Problem zu lösen, stellten die Forscher die Methode „B-Clean" vor. Dieses neue Evaluierungsverfahren filtert Fragen heraus, die ausschließlich auf Textinformationen beantwortet werden können, und stellt sicher, dass die Modelle tatsächlich visuelles Verständnis unter Beweis stellen. Die Ergebnisse der Studie wurden als Preprint auf dem Server arXiv veröffentlicht. Die Autoren betonen, dass dringend sicherere und genauere Benchmark-Methoden entwickelt werden müssen, um nicht-visuelle Inferenzen zu eliminieren. Obwohl B-Clean ein vielversprechender Ansatz ist, sind weitere Forschungen notwendig, um zu bestätigen, ob diese Methode den Mirage-Effekt zuverlässig beseitigen kann und ob die von KI generierten Outputs tatsächlich auf visuellen Eingaben basieren. Diese Erkenntnisse unterstreichen die Notwendigkeit, die Verlässlichkeit von KI-Systemen in sensiblen Bereichen wie der Gesundheitsversorgung neu zu bewerten, bevor sie flächendeckend eingesetzt werden.
