HyperAIHyperAI
il y a 2 mois

PASTA : Vérification de faits sensible aux opérations sur les tables via un pré-entraînement de complétion de phrases-tables

Zihui Gu; Ju Fan; Nan Tang; Preslav Nakov; Xiaoman Zhao; Xiaoyong Du
PASTA : Vérification de faits sensible aux opérations sur les tables via un pré-entraînement de complétion de phrases-tables
Résumé

La vérification des faits a récemment attiré beaucoup d'attention de la part de la recherche, notamment dans le journalisme, le marketing et l'élaboration des politiques, en raison du fait que les informations erronées et les désinformations en ligne peuvent influencer les opinions et affecter les actions. Bien que la vérification des faits soit une tâche difficile en général, dans de nombreux cas, les déclarations fausses peuvent être facilement réfutées grâce à l'analyse de tableaux contenant des informations fiables. Par conséquent, la vérification des faits basée sur des tableaux est récemment apparue comme un domaine de recherche important et en pleine expansion. Cependant, les progrès ont été limités en raison du manque de jeux de données permettant d'entraîner préalablement des modèles linguistiques (LM) pour qu'ils soient conscients des opérations courantes sur les tableaux, telles que l'agrégation d'une colonne ou la comparaison de tuples.Pour combler cette lacune, dans cet article, nous présentons PASTA, un nouveau cadre d'avant-garde pour la vérification des faits basée sur des tableaux par entraînement préalable avec des questions synthétiques de complétion phrase-tableau. Plus précisément, nous concevons six types courants de tâches de complétion phrase-tableau : Filtre, Agrégation, Superlatif, Comparatif, Ordinal et Unique. Sur cette base, nous synthétisons un vaste corpus composé de 1,2 million de paires phrase-tableau issues de WikiTables. PASTA utilise un modèle linguistique pré-entraîné récent, DeBERTaV3, et le pré-entraîne davantage sur notre corpus.Nos résultats expérimentaux montrent que PASTA atteint une nouvelle performance d'état de l'art sur deux benchmarks de vérification des faits basée sur des tableaux : TabFact et SEM-TAB-FACTS. En particulier, sur l'ensemble complexe de TabFact qui comporte plusieurs opérations, PASTA dépasse largement l'état antérieur de l'art avec une amélioration de 4,7 points (85,6% contre 80,9%). De plus, l'écart entre PASTA et la performance humaine sur le petit ensemble de test TabFact est réduit à seulement 1,5 point (90,6% contre 92,1%).

PASTA : Vérification de faits sensible aux opérations sur les tables via un pré-entraînement de complétion de phrases-tables | Articles de recherche récents | HyperAI