AI-Modelle liegen bei Fakten zu einem Drittel falsch
Google DeepMind hat mit dem FACTS Benchmark Suite ein neues Maß für die Faktenzuverlässigkeit von KI-Modellen vorgestellt, das erstmals systematisch die Genauigkeit von KI in vier zentralen Bereichen misst: der Beantwortung von Faktenfragen aus internem Wissen, der effektiven Nutzung von Web-Suchfunktionen, der Fundierung von Antworten in langen Dokumenten sowie der Interpretation von Bildern. Das beste Modell, Google’s Gemini 3 Pro, erreichte dabei eine Genauigkeit von 69 Prozent – ein Wert, der selbst in professionellen Kontexten als unzureichend gilt. In der Praxis würde ein Journalist, der 69 Prozent seiner Berichte korrekt verfasst, in der Regel entlassen werden. Andere führende KI-Modelle, darunter Versionen von OpenAI und Meta, lagen deutlich darunter, was die Lücke zwischen KI-Fluency und faktenbasierter Zuverlässigkeit noch deutlicher macht. Die Ergebnisse sind besonders beunruhigend, da KI-Systeme in kritischen Bereichen wie Recht, Gesundheitswesen und Finanzen eingesetzt werden, wo falsche Informationen erhebliche Konsequenzen haben können. So berichtete ein Kollege, dass ein Rechtsanwalt entlassen wurde, weil er ein Dokument mit fiktiven Rechtsprechungsfällen abgab, die von ChatGPT generiert worden waren. Solche Vorfälle verdeutlichen, dass KI-Modelle zwar beeindruckende Sprachfähigkeit und Geschwindigkeit aufweisen, aber bei der exakten Wiedergabe von Fakten, insbesondere in spezialisierten oder komplexen Kontexten, erhebliche Schwächen aufweisen. Der FACTS-Benchmark ist somit nicht nur eine Warnung, sondern auch ein Instrument zur Verbesserung. Indem er präzise aufzeigt, wo und warum KI-Modelle fehlschlagen, schafft er eine klare Grundlage für zielgerichtete Forschung und Entwicklung. Google hofft, dass die Benchmark die Branche anregt, die Faktenzuverlässigkeit systematisch zu steigern. Dennoch bleibt der zentrale Punkt: KI ist auf dem Weg der Verbesserung, aber sie ist immer noch in einem Drittel der Fälle falsch. Für Unternehmen, die auf KI setzen, bedeutet das, dass menschliche Überprüfung, Kontrolle und kritische Distanz weiterhin unverzichtbar sind. In der Branche wird der Benchmark als Meilenstein angesehen, der die Branche zwingt, über reine Leistung hinaus auch Integrität und Verantwortung in der KI-Nutzung nachzudenken. Experten betonen, dass die Entwicklung von KI nicht nur um Geschwindigkeit und Kreativität geht, sondern um Vertrauenswürdigkeit. Für Google bleibt die Forschung an der Verbesserung von Modellen wie Gemini weiterhin eine Priorität – doch bis dahin bleibt die menschliche Kontrolle unersetzlich.
