HyperAIHyperAI

Command Palette

Search for a command to run...

vor 16 Tagen

Wenn Modelle Lügen, lernen wir: Multisprachige Erkennung von Halluzinationen auf Satzebene mit PsiloQA

Elisei Rykov Kseniia Petrushina Maksim Savkin Valerii Olisov Artem Vazhentsev Kseniia Titova Alexander Panchenko Vasily Konovalov Julia Belikova

Wenn Modelle Lügen, lernen wir: Multisprachige Erkennung von Halluzinationen auf Satzebene mit PsiloQA

Abstract

Die Erkennung von Halluzinationen bleibt eine zentrale Herausforderung für den sicheren und zuverlässigen Einsatz großer Sprachmodelle (LLMs), insbesondere in Anwendungen, die hohe Faktengenauigkeit erfordern. Bisherige Benchmark-Datasets zur Halluzinationsdetektion arbeiten meist auf Sequenzebene und sind auf Englisch beschränkt, wodurch sie an fein granularem, mehrsprachigem Supervision mangeln, die für eine umfassende Evaluation notwendig ist. In dieser Arbeit stellen wir PsiloQA vor, eine großskalige, mehrsprachige Datensammlung, die mit spannweitenbasierten Halluzinationen in 14 Sprachen annotiert ist. PsiloQA wurde durch ein automatisiertes dreistufiges Pipeline-Verfahren erstellt: Zunächst werden Frage-Antwort-Paare aus Wikipedia mithilfe von GPT-4o generiert, anschließend werden möglicherweise hallucinierte Antworten von unterschiedlichen LLMs in einem kontextlosen Setting abgerufen, und schließlich werden die hallucinierten Textabschnitte automatisch mittels GPT-4o annotiert, indem sie mit den goldenen Antworten und dem abgerufenen Kontext verglichen werden. Wir evaluieren eine Vielzahl von Ansätzen zur Halluzinationsdetektion – darunter Unsicherheitsquantifizierung, LLM-basierte Tagging-Methoden sowie feinabgestimmte Encoder-Modelle – und zeigen, dass Encoder-basierte Modelle über alle Sprachen hinweg die bestmögliche Leistung erzielen. Darüber hinaus demonstriert PsiloQA eine effektive Übertragbarkeit zwischen Sprachen und ermöglicht robuste Wissensübertragung auf andere Benchmarks, wobei sie im Vergleich zu menschlich annotierten Datensätzen erheblich kosteneffizienter ist. Unser Datensatz und die damit verbundenen Ergebnisse tragen zur Entwicklung skalierbarer, fein granularer Halluzinationsdetektion in mehrsprachigen Umgebungen bei.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wenn Modelle Lügen, lernen wir: Multisprachige Erkennung von Halluzinationen auf Satzebene mit PsiloQA | Forschungsarbeiten | HyperAI