Command Palette
Search for a command to run...
Wenn Modelle Lügen, lernen wir: Multisprachige Erkennung von Halluzinationen auf Satzebene mit PsiloQA
Elisei Rykov Kseniia Petrushina Maksim Savkin Valerii Olisov Artem Vazhentsev Kseniia Titova Alexander Panchenko Vasily Konovalov Julia Belikova

Abstract
Die Erkennung von Halluzinationen bleibt eine zentrale Herausforderung für den sicheren und zuverlässigen Einsatz großer Sprachmodelle (LLMs), insbesondere in Anwendungen, die hohe Faktengenauigkeit erfordern. Bisherige Benchmark-Datasets zur Halluzinationsdetektion arbeiten meist auf Sequenzebene und sind auf Englisch beschränkt, wodurch sie an fein granularem, mehrsprachigem Supervision mangeln, die für eine umfassende Evaluation notwendig ist. In dieser Arbeit stellen wir PsiloQA vor, eine großskalige, mehrsprachige Datensammlung, die mit spannweitenbasierten Halluzinationen in 14 Sprachen annotiert ist. PsiloQA wurde durch ein automatisiertes dreistufiges Pipeline-Verfahren erstellt: Zunächst werden Frage-Antwort-Paare aus Wikipedia mithilfe von GPT-4o generiert, anschließend werden möglicherweise hallucinierte Antworten von unterschiedlichen LLMs in einem kontextlosen Setting abgerufen, und schließlich werden die hallucinierten Textabschnitte automatisch mittels GPT-4o annotiert, indem sie mit den goldenen Antworten und dem abgerufenen Kontext verglichen werden. Wir evaluieren eine Vielzahl von Ansätzen zur Halluzinationsdetektion – darunter Unsicherheitsquantifizierung, LLM-basierte Tagging-Methoden sowie feinabgestimmte Encoder-Modelle – und zeigen, dass Encoder-basierte Modelle über alle Sprachen hinweg die bestmögliche Leistung erzielen. Darüber hinaus demonstriert PsiloQA eine effektive Übertragbarkeit zwischen Sprachen und ermöglicht robuste Wissensübertragung auf andere Benchmarks, wobei sie im Vergleich zu menschlich annotierten Datensätzen erheblich kosteneffizienter ist. Unser Datensatz und die damit verbundenen Ergebnisse tragen zur Entwicklung skalierbarer, fein granularer Halluzinationsdetektion in mehrsprachigen Umgebungen bei.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.