HyperAIHyperAI
il y a 2 mois

TabFact : Un grand ensemble de données pour la vérification des faits basée sur les tableaux

Wenhu Chen; Hongmin Wang; Jianshu Chen; Yunkai Zhang; Hong Wang; Shiyang Li; Xiyou Zhou; William Yang Wang
TabFact : Un grand ensemble de données pour la vérification des faits basée sur les tableaux
Résumé

Le problème de vérification d'une hypothèse textuelle à partir des preuves fournies, également connu sous le nom de vérification de faits, joue un rôle important dans l'étude de la compréhension du langage naturel et de la représentation sémantique. Cependant, les études existantes sont principalement limitées au traitement de preuves non structurées (par exemple, des phrases et des documents en langage naturel, des nouvelles, etc.), tandis que la vérification de faits basée sur des preuves structurées, telles que des tableaux, des graphiques et des bases de données, reste peu explorée. Ce travail vise spécifiquement à étudier la vérification de faits donnée des données semi-structurées comme preuve. À cette fin, nous avons construit un jeu de données à grande échelle appelé TabFact comprenant 16 000 tableaux Wikipédia comme preuve pour 118 000 déclarations en langage naturel annotées par des humains, qui sont étiquetées soit comme ENTIÈREMENT DÉDUITES (ENTAILMENT) ou RÉFUTÉES (REFUTATION). TabFact est un défi car il implique à la fois une raisonnement linguistique souple et un raisonnement symbolique rigide. Pour relever ces défis de raisonnement, nous avons conçu deux modèles différents : Table-BERT et l'Algorithme de Programme Latent (LPA). Table-BERT utilise le modèle pré-entraîné de pointe pour encoder les tableaux linéarisés et les déclarations en vecteurs continus pour la vérification. LPA analyse les déclarations en programmes et les exécute contre les tableaux afin d'obtenir une valeur binaire retournée pour la vérification. Les deux méthodes atteignent une précision similaire mais restent encore largement en dessous des performances humaines. Nous effectuons également une analyse complète pour montrer d'importantes opportunités futures. Les données et le code du jeu de données sont fournis à l'adresse \url{https://github.com/wenhuchen/Table-Fact-Checking}.

TabFact : Un grand ensemble de données pour la vérification des faits basée sur les tableaux | Articles de recherche récents | HyperAI