HyperAIHyperAI
il y a 17 jours

Réponse à des questions ouvertes sur des tableaux et du texte

Wenhu Chen, Ming-Wei Chang, Eva Schlinger, William Wang, William W. Cohen
Réponse à des questions ouvertes sur des tableaux et du texte
Résumé

Dans la réponse à des questions ouvertes (QA), la réponse à une question est obtenue en récupérant puis en analysant des documents susceptibles de contenir la réponse. La plupart des systèmes de QA ouverte se sont jusqu’à présent limités à la récupération d’informations à partir de textes non structurés. Dans cet article, nous abordons pour la première fois le problème de la QA ouverte à la fois sur des données tabulaires et textuelles, et présentons un nouveau jeu de données à grande échelle, nommé Open Table-and-Text Question Answering (OTT-QA), destiné à évaluer les performances sur cette tâche. La majorité des questions dans OTT-QA nécessitent une inférence multi-étapes à travers des données tabulaires et des textes non structurés, et les éléments de preuve nécessaires pour répondre à une question peuvent être répartis de manière disparate entre ces deux types d’entrée, ce qui rend la récupération de preuves particulièrement difficile — notre modèle de référence, basé sur un récupérateur itératif et un lecteur fondé sur BERT, atteint un score exact-match inférieur à 10 %. Nous proposons ensuite deux nouvelles techniques pour relever ce défi de récupération et d’agrégation de preuves dans le cadre d’OTT-QA. La première technique consiste à utiliser une « fusion précoce » (early fusion) afin de regrouper plusieurs unités tabulaires et textuelles hautement pertinentes en un bloc fusionné, offrant ainsi un contexte enrichi au récupérateur pour effectuer sa recherche. La seconde technique repose sur un lecteur inter-blocs, capable de modéliser les dépendances croisées entre plusieurs éléments de preuve récupérés à l’aide d’une attention creuse globale-locale. L’association de ces deux approches permet d’améliorer significativement les performances, atteignant un score supérieur à 27 %.