ChatGPT ignoriert Retraktionen und Fehler in wissenschaftlichen Artikeln
Eine neue Studie hat erhebliche Schwächen von Großsprachmodellen wie ChatGPT bei der Bewertung wissenschaftlicher Artikel aufgedeckt, insbesondere wenn es um revidierte oder widerrufene Arbeiten geht. Das Forschungsteam um Professor Mike Thelwall und Dr. Irini Katsirea untersuchte 217 hochprofilierte wissenschaftliche Studien, die entweder offiziell zurückgezogen wurden oder gravierende methodische oder ethische Bedenken aufwiesen, und die durch hohe Altmetric-Scores auffielen – ein Indikator für breite mediale und öffentliche Aufmerksamkeit. Diese Artikel wurden jeweils 30-mal an ChatGPT übermittelt, um deren wissenschaftliche Qualität einzuschätzen. In insgesamt 6.510 Auswertungen erwähnte das Modell keine einzige der Rückzugsentscheidungen oder bestehenden Fehler in den Studien. Stattdessen verlieh es 190 der 217 Artikel relativ hohe Bewertungen, die auf „weltweit führend“, „internationale Exzellenz“ oder ähnliche Qualitätsstufen hindeuteten. Die wenigen Kritiken, die das Modell äußerte, bezogen sich ausschließlich auf methodische Schwächen im wissenschaftlichen Ansatz, nicht aber auf die Relevanz oder Gültigkeit der Forschungsergebnisse. In fünf Fällen wurde das Thema als „umstritten“ bezeichnet, doch ohne Hinweis auf die Rücknahme der Arbeit. In einer weiteren Phase wurden 61 Aussagen aus den zurückgezogenen Artikeln extrahiert und an ChatGPT gestellt, ob sie zutreffen. In zwei Dritteln der Fälle antwortete das Modell mit einem klaren „Ja“ oder einer positiven Bestätigung – auch bei Behauptungen, die bereits vor über zehn Jahren als falsch entlarvt worden waren. Diese Ergebnisse zeigen, dass ChatGPT weder die historische Relevanz von Rückzügen noch die wissenschaftliche Unzuverlässigkeit solcher Arbeiten erkennt. Die Forscher schließen daraus, dass die Verwendung von KI-Systemen zur Literaturrecherche oder wissenschaftlichen Analyse ohne sorgfältige Nachprüfung erhebliche Risiken birgt, insbesondere wenn die KI plausibel und fundiert klingt. Professor Thelwall betont, dass die Ergebnisse „überraschend“ und „beunruhigend“ seien. Er hofft, dass die Erkenntnisse Entwickler dazu motivieren, die Zuverlässigkeitsprüfung in KI-Modellen zu verbessern, und gleichzeitig Nutzer vor blindem Vertrauen in KI warnen. Die Studie ist Teil des Projekts „Unreliable science: unraveling the impact of mainstream media misrepresentation“, das seit Oktober 2024 läuft und sich mit der Verbreitung wissenschaftlicher Fehlinformationen in Medien und digitalen Plattformen befasst. Die Arbeit wurde in der Fachzeitschrift Learned Publishing (2025) veröffentlicht (DOI: 10.1002/leap.2018). Experten aus der wissenschaftlichen Community sehen die Studie als dringlichen Aufruf zur Vorsicht: Auch wenn KI-Systeme beeindruckend präzise und überzeugend wirken, sind sie nicht immun gegen die Verbreitung veralteter oder widerlegter Informationen. Unternehmen wie OpenAI, die ChatGPT entwickeln, stehen unter zunehmendem Druck, Transparenz und Validierung von Quellen in ihren Modellen zu stärken – besonders im akademischen Kontext, wo die Integrität der Forschung entscheidend ist.