HyperAIHyperAI
il y a 17 jours

Récupération de texte tabulaire débruitée pour la réponse à des questions dans un domaine ouvert

Deokhyung Kang, Baikjin Jung, Yunsu Kim, Gary Geunbae Lee
Récupération de texte tabulaire débruitée pour la réponse à des questions dans un domaine ouvert
Résumé

Dans les tâches de réponse à des questions ouvertes sur des tables et du texte, un système de récupération (retriever) extrait des éléments pertinents provenant de tables et de textes afin de répondre aux questions posées. Les études antérieures sur la réponse à des questions ouvertes sur des tables et du texte font face à deux défis fréquents : premièrement, leurs systèmes de récupération peuvent être affectés par des étiquettes faussement positives présentes dans les jeux de données d'entraînement ; deuxièmement, ils peinent parfois à fournir des éléments pertinents pour des questions nécessitant un raisonnement transversal aux tables. Pour surmonter ces limites, nous proposons un modèle appelé Denoised Table-Text Retriever (DoTTeR). Notre approche repose sur l’utilisation d’un jeu de données d’entraînement débruité, comprenant moins de faux positifs, en éliminant les instances dont le score de pertinence par rapport à la question est faible, tel qu’évalué par un modèle de détection des faux positifs. Par la suite, nous intégrons des informations de classement au niveau de la table dans le système de récupération, afin d’aider à localiser les éléments pertinents pour les questions exigeant un raisonnement complexe à travers les données tabulaires. Pour encoder ces informations de classement, nous entraînons finement un encodeur de colonnes sensible au rang, afin qu’il puisse identifier les valeurs minimales et maximales au sein d’une colonne. Les résultats expérimentaux montrent que DoTTeR surpasse significativement les modèles de référence forts tant en termes de rappel de récupération qu’en tâches de réponse à questions en aval. Le code source est disponible à l’adresse suivante : https://github.com/deokhk/DoTTeR.

Récupération de texte tabulaire débruitée pour la réponse à des questions dans un domaine ouvert | Articles de recherche récents | HyperAI