FENICE : Évaluation de la factualité de la synthèse basée sur l'inférence en langage naturel et l'extraction de revendications

Les récentes avancées dans la synthèse de texte, en particulier avec l'émergence des grands modèles linguistiques (LLMs), ont montré des performances remarquables. Cependant, un défi notable persiste, car un nombre important de résumés générés automatiquement présentent des incohérences factuelles, telles que des hallucinations. En réponse à ce problème, diverses approches pour l'évaluation de la cohérence dans la synthèse de texte ont été développées. Néanmoins, ces nouvelles métriques font face à plusieurs limitations, notamment une faible interprétabilité, une concentration sur les résumés de documents courts (par exemple, des articles de presse) et une impraticabilité computationnelle, en particulier pour les métriques basées sur les LLMs. Pour remédier à ces lacunes, nous proposons une évaluation factuelle de la synthèse de texte basée sur l'inférence en langage naturel et l'extraction d'affirmations (FENICE), une métrique plus interprétable et efficace orientée vers la factalité. FENICE utilise un alignement basé sur l'inférence en langage naturel entre les informations du document source et un ensemble de faits atomiques, appelés affirmations, extraits du résumé. Notre métrique établit un nouveau niveau d'excellence sur AGGREFACT, le benchmark de facto pour l'évaluation factuelle. De plus, nous étendons notre évaluation à un cadre plus complexe en menant un processus d'annotation humaine pour la synthèse de longues formes textuelles. Dans l'espoir de stimuler la recherche en évaluation factuelle de la synthèse de texte, nous mettons à disposition le code de notre métrique ainsi que nos annotations factuelles pour la synthèse de longues formes textuelles sur https://github.com/Babelscape/FENICE.