MAFiD : Fusion équipée de moyenne mobile dans le décodeur pour la réponse aux questions sur des données tabulaires et textuelles

Les modèles basés sur les transformateurs pour la résolution de questions (QA) sur des tableaux et des textes font face à une séquence hybride « longue » incluant à la fois des éléments tabulaires et textuels, ce qui pose des difficultés en raisonnement à longue portée. Pour traiter ces défis, nous exploitons de manière extensive une architecture de fusion dans le décodeur (FiD) ainsi qu'une moyenne mobile exponentielle (EMA), en proposant un modèle appelé {underline{M}oving {underline{A}verage Equipped {underline{F}usion-{underline{i}n-{underline{D}ecoder ({textbf{MAFiD}). En s'appuyant sur FiD comme architecture fondamentale, MAFiD intègre plusieurs niveaux de raisonnement : {textit{encodage indépendant} des données homogènes, ainsi que des raisonnements {textit{à une seule ligne} et {textit{à plusieurs lignes} sur des données hétérogènes, en utilisant une couche de attention croisée à seuil pour agréger efficacement les trois types de représentations issues de ces différents processus de raisonnement. Les résultats expérimentaux sur le jeu de données HybridQA montrent que MAFiD atteint des performances de pointe, en améliorant respectivement le taux de correspondance exacte (EM) et le score F1 de 1,1 et 1,7 sur l'ensemble de test aveugle.