HyperAIHyperAI
il y a 2 mois

OmniTab : Préformation avec des données naturelles et synthétiques pour la réponse à des questions basées sur des tableaux en few-shot

Zhengbao Jiang; Yi Mao; Pengcheng He; Graham Neubig; Weizhu Chen
OmniTab : Préformation avec des données naturelles et synthétiques pour la réponse à des questions basées sur des tableaux en few-shot
Résumé

Les informations contenues dans les tableaux peuvent constituer un complément important au texte, rendant les systèmes de réponse à des questions basés sur des tableaux (QA) d'une grande valeur. La complexité inhérente à la gestion des tableaux ajoute souvent une charge supplémentaire tant au design des modèles qu'à l'annotation des données. Dans cet article, nous visons à développer un modèle de QA basé sur des tableaux simple et nécessitant un effort minimal d'annotation. Inspirés par le fait que le QA basé sur des tableaux requiert à la fois une correspondance entre les questions et les tableaux et la capacité d'effectuer des raisonnements complexes sur plusieurs éléments de tableau, nous proposons une approche de préentraînement omnivore qui utilise à la fois des données naturelles et synthétiques pour doter les modèles de ces capacités respectives. Plus précisément, en utilisant des tableaux librement disponibles, nous exploitons la recherche pour les associer avec des phrases naturelles pertinentes pour un préentraînement basé sur le masquage, et nous synthétisons des questions en langage naturel (NL) en convertissant du SQL échantillonné à partir de ces tableaux pour un préentraînement avec une perte QA. Nous menons de nombreuses expériences dans des configurations à tirage limité et complet, et les résultats montrent clairement la supériorité de notre modèle OmniTab, avec une amélioration absolue de 16,2 % et 2,7 % dans les configurations 128-tirages et complète respectivement, établissant également un nouveau niveau d'excellence sur WikiTableQuestions. Des analyses détaillées révèlent différentes caractéristiques des données naturelles et synthétiques, offrant des perspectives pour les futures directions en matière de préentraînement omnivore. Le code source, les données de préentraînement et les modèles préentrainés sont disponibles à l'adresse suivante : https://github.com/jzbjyb/OmniTab.

OmniTab : Préformation avec des données naturelles et synthétiques pour la réponse à des questions basées sur des tableaux en few-shot | Articles de recherche récents | HyperAI