HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 16 jours

Quand les modèles mentent, nous apprenons : détection multilingue des hallucinations au niveau des segments avec PsiloQA

Elisei Rykov Kseniia Petrushina Maksim Savkin Valerii Olisov Artem Vazhentsev Kseniia Titova Alexander Panchenko Vasily Konovalov Julia Belikova

Quand les modèles mentent, nous apprenons : détection multilingue des hallucinations au niveau des segments avec PsiloQA

Résumé

La détection des hallucinations reste un défi fondamental pour le déploiement sûr et fiable des grands modèles linguistiques (LLM), en particulier dans les applications exigeant une exactitude factuelle. Les benchmarks existants de hallucinations opèrent souvent au niveau de la séquence et se limitent à l’anglais, manquant ainsi de supervision fine et multilingue nécessaire à une évaluation complète. Dans ce travail, nous introduisons PsiloQA, un ensemble de données à grande échelle et multilingue, annoté au niveau des segments pour les hallucinations dans 14 langues. PsiloQA est construit à l’aide d’un pipeline automatisé en trois étapes : génération de paires question-réponse à partir de Wikipedia à l’aide de GPT-4o, extraction de réponses potentiellement hallucinées à partir de divers LLM dans un contexte sans information, puis annotation automatique des segments hallucinés à l’aide de GPT-4o en les comparant aux réponses de référence (golden answers) et au contexte récupéré. Nous évaluons une large gamme de méthodes de détection des hallucinations — notamment la quantification d’incertitude, l’étiquetage basé sur les LLM, et les modèles encodants fine-tunés — et montrons que les modèles basés sur des encodants obtiennent les meilleurs résultats dans toutes les langues. En outre, PsiloQA démontre une généralisation translinguistique efficace et permet un transfert robuste de connaissances vers d’autres benchmarks, tout en étant sensiblement plus économique que les jeux de données annotés par des humains. Notre ensemble de données et nos résultats contribuent ainsi au progrès vers une détection des hallucinations à grande échelle et fine dans des contextes multilingues.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Quand les modèles mentent, nous apprenons : détection multilingue des hallucinations au niveau des segments avec PsiloQA | Articles de recherche | HyperAI