Génération de texte à partir de table robuste (contrôlée) avec apprentissage équivariant sensible à la structure

La génération contrôlée de texte à partir de tableaux vise à produire des descriptions en langage naturel pour des sous-éléments mis en évidence d’un tableau. Les systèmes d’état de l’art (SOTA) précédents reposent encore sur une méthode de génération séquentielle (sequence-to-sequence), qui ne modélise le tableau qu’en tant que structure linéaire, rendant ces approches fragiles face aux modifications de mise en page. Nous cherchons à dépasser ce paradigme en (1) exprimant efficacement les relations entre les éléments de contenu dans le tableau, et (2) en rendant notre modèle robuste aux transformations structurelles indépendantes du contenu. À cette fin, nous proposons un cadre d’apprentissage d’équivariance, qui encode les tableaux à l’aide d’un mécanisme d’attention auto-orientée sur la structure. Ce mécanisme réduit la structure d’attention complète en une attention sur graphe invariante à l’ordre, qui capture la structure de graphe connecté des cellules appartenant à la même ligne ou colonne, tout en différenciant, du point de vue structurel, les cellules pertinentes des cellules non pertinentes. Notre cadre modifie également le mécanisme d’encodage positionnel afin de préserver la position relative des jetons appartenant à la même cellule, tout en imposant une invariance de position entre différentes cellules. Notre approche peut être intégrée librement dans les modèles existants de génération de texte à partir de tableaux, et améliore les modèles basés sur T5, offrant des performances supérieures sur les jeux de données ToTTo et HiTab. En outre, sur une version plus difficile de ToTTo, notre méthode maintient des performances prometteuses, alors que les systèmes SOTA précédents, même avec une augmentation de données basée sur des transformations, subissent une chute significative de performance. Le code est disponible à l’adresse suivante : https://github.com/luka-group/Lattice.