Compréhension efficace de textes longs à l’aide de modèles de textes courts

Les modèles préentraînés basés sur les transformateurs (LM) sont omniprésents dans le domaine du traitement du langage naturel, mais leur application à des séquences longues — telles que des récits, des articles scientifiques ou des documents étendus — est limitée en raison de leur complexité quadratique. Bien qu’un grand nombre de variantes efficaces des transformateurs aient été proposées, celles-ci reposent généralement sur des implémentations personnalisées nécessitant un entraînement à partir de zéro coûteux. Dans ce travail, nous proposons SLED : SLiding-Encoder and Decoder, une approche simple permettant de traiter des séquences longues en réutilisant et en exploitant des modèles préentraînés pour textes courts, déjà éprouvés. Plus précisément, nous divisons l’entrée en morceaux chevauchants, encodons chaque morceau à l’aide d’un encodeur de modèle préentraîné pour textes courts, puis utilisons le décodeur préentraîné pour fusionner l’information entre les morceaux (fusion-in-decoder). À travers des expériences contrôlées, nous démontrons que SLED constitue une stratégie viable pour la compréhension de textes longs, et évaluons notre approche sur SCROLLS, un benchmark comprenant sept jeux de données couvrant une large gamme de tâches de compréhension du langage. Nous constatons que SLED est compétitive avec des modèles spécialisés jusqu’à 50 fois plus volumineux, qui nécessitent quant à eux un entraînement préalable dédié et coûteux.