MATE : Attentions multi-vues pour l'efficacité du Table Transformer

Ce travail présente une architecture Transformer à attention sparse conçue pour modéliser des documents contenant de grandes tables. Les tables sont omniprésentes sur le web et constituent une source riche d’informations. Toutefois, plus de 20 % des tables relationnelles présentes sur le web comportent 20 lignes ou plus (Cafarella et al., 2008), ce qui pose un défi aux modèles Transformer actuels, généralement limités à 512 tokens. Nous proposons ici MATE, une nouvelle architecture Transformer spécifiquement conçue pour capturer la structure des tables web. MATE utilise une attention sparse de manière à permettre aux têtes d’attender efficacement soit les lignes, soit les colonnes d’une table. Cette architecture s’étend de manière linéaire en termes de vitesse et de mémoire, et peut traiter des documents contenant plus de 8000 tokens avec les accélérateurs actuels. MATE possède également une biais inductif plus adapté aux données tabulaires, et établit un nouveau record sur trois jeux de données de raisonnement sur les tables. Sur HybridQA (Chen et al., 2020b), un jeu de données impliquant des documents longs contenant des tables, nous améliorons le meilleur résultat antérieur de 19 points.