ChatGPT fällt bei Wissenschafts-Quiz durch
Eine aktuelle Studie von Forschern der Washington State University hat erhebliche Schwächen von ChatGPT bei der Bewertung wissenschaftlicher Aussagen aufgedeckt. Professor Mesut Cicek und sein Team untersuchten systematisch die Fähigkeit der künstlichen Intelligenz, Hypothesen aus wissenschaftlichen Publikationen als wahr oder falsch zu klassifizieren. Das Ziel war es, die Genauigkeit des Modells im Kontext der wissenschaftlichen Faktenprüfung zu messen. Das Experiment beinhaltete mehr als 700 verschiedene Hypothesen, die den Forschergruppen aus echten Studien entnommen wurden. Um die Zuverlässigkeit der Ergebnisse zu sichern, wurde jede Frage zehnmal an das System gestellt. Trotz dieser Wiederholungsläufe zeigte ChatGPT in der Summe der Versuche eine sehr geringe Trefferquote. Die Forscher bewerteten die Leistung des Modells letztlich mit der Note „D", was die signifikanten Mängel in seinem Verständnis und seiner Fähigkeit zur logischen Schlussfolgerung im wissenschaftlichen Bereich unterstreicht. Die Ergebnisse deuten darauf hin, dass aktuelle Large-Language-Modelle, wie das, das ChatGPT antreibt, oft Probleme haben, komplexe wissenschaftliche Zusammenhänge korrekt zu interpretieren. Anstatt fundierte Analysen basierend auf den vorgelegten Daten zu liefern, neigt das System dazu, plausible, aber faktisch falsche Antworten zu generieren oder den Kontext der Hypothesen zu verfehlen. Dies stellt ein erhebliches Risiko für den Einsatz solcher KI-Systeme in der akademischen Forschung oder bei der Informationsbeschaffung dar, wo hohe Präzision unerlässlich ist. Professor Cicek betont, dass die Studie nicht die gesamte Leistungsfähigkeit der Künstlichen Intelligenz infrage stellt, aber klar aufzeigt, wo aktuelle Grenzen liegen. Die Fähigkeit, zwischen wahren und falschen wissenschaftlichen Behauptungen zu unterscheiden, ist für die Validität von Forschungsarbeiten von zentraler Bedeutung. Das Versagen des Systems in diesem spezifischen Testbereich wirft Fragen nach der Zuverlässigkeit von KI als alleiniges Werkzeug zur Überprüfung wissenschaftlicher Inhalte auf. Die Implikationen dieser Ergebnisse sind weitreichend. Wenn KI-Modelle in der Lage sind, Fehler zu machen, selbst wenn sie scheinbar fundierte Antworten liefern, muss ihre Nutzung in sensiblen Bereichen wie der Medizin oder der Grundlagenforschung mit äußerster Vorsicht gehandhabt werden. Experten fordern dringend eine menschliche Aufsicht und eine kritische Überprüfung der KI-Ergebnisse, bevor diese als belastbare Fakten akzeptiert werden können. Die Forscher planen, ihre Analysen fortzusetzen, um zu untersuchen, ob spezifische Modifikationen oder neue Trainingsdaten die Leistung der Systeme in diesem Bereich verbessern können. Bis dahin bleibt die Botschaft klar: Trotz der fortschrittlichen Fähigkeiten bei Texterstellung oder Codierung ist ChatGPT im wissenschaftlichen Wahrheitscheck noch nicht vertrauenswürdig genug, um menschliche Experten zu ersetzen. Die Note „D" dient als Mahnung an Entwickler und Nutzer gleichermaßen, die aktuellen Grenzen der Technologie realistisch zu betrachten und nicht blind auf die Ergebnisse automatisierter Systeme zu vertrauen.
