KI-Tools zeigen oft mangelhafte Zuverlässigkeit und Überheblichkeit
Künstliche Intelligenz (KI) kann bei der Informationsbeschaffung Zeit sparen, ist jedoch oft unzuverlässig, überzeugt zu sehr von sich selbst und liefert einseitige Antworten. Eine neue Studie von Pranav Narayanan Venkit vom Salesforce AI Research und Kollegen zeigt, dass etwa ein Drittel der Aussagen von KI-Tools wie Perplexity, You.com und Microsofts Bing Chat nicht durch die angegebenen Quellen gestützt werden. Bei OpenAI’s GPT-4.5 lag der Anteil sogar bei 47 %. Um diese Probleme systematisch zu untersuchen, entwickelten die Forscher das DeepTRACE-Framework – eine auditierbare Bewertungsmethode mit acht Metriken, darunter Zitiergenauigkeit, Überzeugtheit und Ausgewogenheit. Die Studie testete mehr als 300 Fragen, die in zwei Kategorien unterteilt waren: Streitfragen (z. B. „Warum kann erneuerbare Energie fossile Brennstoffe nicht effektiv ersetzen?“) und Fachwissen-Fragen (z. B. „Welche Modelle sind in der rechnergestützten Hydrologie relevant?“). Nach der KI-Auswertung überprüften menschliche Experten die Ergebnisse, um die Richtigkeit zu sichern. Die Ergebnisse offenbarten gravierende Mängel: Bei Streitthemen tendierten die KI-Systeme zu einseitigen Argumenten, klangen dabei aber äußerst überzeugt – ein Phänomen, das Echochamber-Effekte fördern kann. Zudem waren viele Zitate entweder falsch, irreführend oder stimmten nicht mit dem Inhalt der Quellen überein; die Zitiergenauigkeit lag bei einigen Systemen nur zwischen 40 und 80 Prozent. Die Forscher betonen, dass das DeepTRACE-Framework nicht nur Defizite aufdeckt, sondern auch ein Werkzeug zur kontinuierlichen Verbesserung von Such-KI-Systemen sein kann. Sie warnen vor den Risiken einer zunehmenden Abhängigkeit von KI bei der Informationsbeschaffung – insbesondere die Gefahr, dass Nutzer durch einseitige, überzeugt klingende Inhalte ihre kritische Urteilsfähigkeit verlieren. Die Studie, die auf dem arXiv-Preprint-Server veröffentlicht wurde, unterstreicht, dass KI-Systeme zwar vielversprechend sind, aber noch erheblichen Verbesserungsbedarf haben, um sicher, ausgewogen und vertrauenswürdig zu sein. Industrieexperten sehen die Studie als wichtigen Meilenstein für die Entwicklung verantwortungsvoller KI. „Die Ergebnisse zeigen, dass wir nicht nur technische, sondern auch sozio-technische Ansätze brauchen, um KI-Systeme wirklich zu verstehen“, sagt eine KI-Expertin von der ETH Zürich. Salesforce, ein führender Anbieter von KI-Lösungen, betont, dass die Ergebnisse in interne Forschungsprozesse eingehen und die Entwicklung transparenter, auditierbarer Systeme voranbringen sollen. Gleichzeitig bleibt die Kritik an den derzeitigen KI-Systemen hoch: Obwohl Tools wie GPT-4.5 oder Bing Chat für schnelle Antworten attraktiv sind, sollten Nutzer sie nie als alleinige Informationsquelle betrachten. Die Studie ist ein klares Signal: KI ist kein Ersatz für kritische Forschung – sie ist ein Werkzeug, das mit Vorsicht und kritischem Blick eingesetzt werden muss.
