HyperAIHyperAI

Command Palette

Search for a command to run...

FENICE : Évaluation de la factualité de la synthèse basée sur l'inférence en langage naturel et l'extraction de revendications

Alessandro Scirè Karim Ghonim Roberto Navigli

Résumé

Les récentes avancées dans la synthèse de texte, en particulier avec l'émergence des grands modèles linguistiques (LLMs), ont montré des performances remarquables. Cependant, un défi notable persiste, car un nombre important de résumés générés automatiquement présentent des incohérences factuelles, telles que des hallucinations. En réponse à ce problème, diverses approches pour l'évaluation de la cohérence dans la synthèse de texte ont été développées. Néanmoins, ces nouvelles métriques font face à plusieurs limitations, notamment une faible interprétabilité, une concentration sur les résumés de documents courts (par exemple, des articles de presse) et une impraticabilité computationnelle, en particulier pour les métriques basées sur les LLMs. Pour remédier à ces lacunes, nous proposons une évaluation factuelle de la synthèse de texte basée sur l'inférence en langage naturel et l'extraction d'affirmations (FENICE), une métrique plus interprétable et efficace orientée vers la factalité. FENICE utilise un alignement basé sur l'inférence en langage naturel entre les informations du document source et un ensemble de faits atomiques, appelés affirmations, extraits du résumé. Notre métrique établit un nouveau niveau d'excellence sur AGGREFACT, le benchmark de facto pour l'évaluation factuelle. De plus, nous étendons notre évaluation à un cadre plus complexe en menant un processus d'annotation humaine pour la synthèse de longues formes textuelles. Dans l'espoir de stimuler la recherche en évaluation factuelle de la synthèse de texte, nous mettons à disposition le code de notre métrique ainsi que nos annotations factuelles pour la synthèse de longues formes textuelles sur https://github.com/Babelscape/FENICE.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
FENICE : Évaluation de la factualité de la synthèse basée sur l'inférence en langage naturel et l'extraction de revendications | Articles | HyperAI