HyperAIHyperAI
il y a 11 jours

Contrôle des hallucinations au niveau des mots dans la génération de texte à partir de données

Clément Rebuffel, Marco Roberti, Laure Soulier, Geoffrey Scoutheeten, Rossella Cancelliere, Patrick Gallinari
Contrôle des hallucinations au niveau des mots dans la génération de texte à partir de données
Résumé

La génération de texte à partir de données (DTG) est un sous-domaine de la génération de langage naturel dont l’objectif est de transformer des données structurées en descriptions linguistiques naturelles. Ce domaine a connu un essor récent grâce à l’utilisation de générateurs basés sur des réseaux neuronaux, qui présentent d’un côté d’excellentes compétences syntaxiques sans nécessiter de chaînes de traitement manuelles ; d’un autre côté, la qualité du texte généré dépend directement de celle des données d’entraînement, qui, dans des contextes réalistes, ne fournissent que des paires données-texte imparfaitement alignées. En conséquence, les modèles neuronaux d’avant-garde produisent souvent des énoncés erronés – généralement appelés « hallucinations » – dans leurs sorties. Le contrôle de ce phénomène constitue aujourd’hui un défi majeur en DTG, et c’est précisément ce problème que traite cet article.Les travaux antérieurs abordent cette question au niveau de l’instance : en utilisant un score d’alignement pour chaque paire tableau-référence. À l’inverse, nous proposons une approche plus fine, arguant que les hallucinations devraient plutôt être traitées au niveau du mot. Plus précisément, nous introduisons un décodeur à plusieurs branches capable d’utiliser des étiquettes au niveau du mot pour apprendre les parties pertinentes de chaque instance d’entraînement. Ces étiquettes sont obtenues à l’aide d’une procédure de notation simple et efficace fondée sur une analyse de co-occurrence et une analyse syntaxique (parsing dépendant). Des évaluations étendues, menées à l’aide de métriques automatisées ainsi que d’évaluations humaines sur la base de benchmark standardisée WikiBio, démontrent la précision de nos étiquettes d’alignement et l’efficacité du décodeur à plusieurs branches proposé. Notre modèle parvient à réduire et contrôler les hallucinations tout en préservant la fluidité et la cohérence du texte généré. Des expériences supplémentaires sur une version dégradée de ToTTo montrent que notre modèle peut être efficacement appliqué dans des environnements très bruyants.

Contrôle des hallucinations au niveau des mots dans la génération de texte à partir de données | Articles de recherche récents | HyperAI