HybridQA : Un jeu de données pour la résolution de questions à plusieurs étapes sur des données tabulaires et textuelles

Les jeux de données existants sur la réponse aux questions se concentrent sur des informations homogènes, fondées soit exclusivement sur du texte, soit uniquement sur des connaissances structurées (KB) ou des tableaux. Toutefois, puisque les connaissances humaines sont réparties sur des formes hétérogènes, l’usage exclusif d’informations homogènes peut entraîner des problèmes graves de couverture. Pour combler cet écart, nous présentons HybridQA (https://github.com/wenhuchen/HybridQA), un nouveau jeu de données à grande échelle pour la réponse aux questions, qui nécessite un raisonnement sur des informations hétérogènes. Chaque question est associée à un tableau Wikipedia et à plusieurs corpus librement formulés liés aux entités présentes dans le tableau. Les questions sont conçues pour intégrer à la fois des informations tabulaires et textuelles : l’absence de l’une ou l’autre de ces formes rend la question insoluble. Nous avons testé trois modèles différents : 1) un modèle basé uniquement sur les tableaux ; 2) un modèle basé uniquement sur le texte ; 3) un modèle hybride qui combine des informations hétérogènes pour trouver la réponse. Les résultats expérimentaux montrent que les scores EM obtenus par les deux modèles de base sont inférieurs à 20 %, tandis que le modèle hybride atteint un score EM dépassant 40 %. Ce fossé souligne la nécessité d’agréger des informations hétérogènes dans le cadre de HybridQA. Toutefois, le score du modèle hybride reste très éloigné des performances humaines. Par conséquent, HybridQA peut servir de référentiel exigeant pour étudier la réponse aux questions basée sur des informations hétérogènes.