Amélioration des Transformers avec des Représentations Multigrain Composées Récursivement

Nous présentons ReCAT, un Transformer augmenté par une composition récursive qui est capable de modéliser explicitement les structures syntaxiques hiérarchiques des textes bruts sans dépendre d'arbres dorés pendant l'apprentissage et l'inférence. Les recherches existantes dans ce domaine restreignent les données à suivre une structure d'arbre hiérarchique, ce qui entraîne un manque de communication entre les segments. Pour surmonter ce problème, nous proposons une nouvelle couche contextuelle inside-outside (CIO) qui apprend des représentations contextualisées des segments grâce à des passes ascendantes et descendantes. Une passe ascendante forme des représentations de segments de haut niveau en composant des segments de bas niveau, tandis qu'une passe descendante combine les informations à l'intérieur et à l'extérieur d'un segment. En empilant plusieurs couches CIO entre la couche d'embedding et les couches d'attention du Transformer, le modèle ReCAT peut effectuer à la fois des interactions profondes intra-segments et inter-segments, générant ainsi des représentations multi-granulaires pleinement contextualisées avec les autres segments. De plus, les couches CIO peuvent être pré-entraînées conjointement avec les Transformers, permettant à ReCAT de bénéficier d'une capacité de mise à l'échelle, de performances élevées et d'une bonne interprétabilité simultanément. Nous menons des expériences sur diverses tâches au niveau des phrases et des segments. Les résultats d'évaluation montrent que ReCAT peut surpasser significativement les modèles de Transformers standard sur toutes les tâches au niveau des segments, ainsi que les méthodes de base qui combinent des réseaux récursifs avec des Transformers pour les tâches d'inférence en langage naturel. Plus intéressamment encore, les structures hiérarchiques induites par ReCAT présentent une forte cohérence avec les arbres syntaxiques annotés par l'homme, indiquant une bonne interprétabilité apportée par les couches CIO.