SCROLLS : Comparaison standardisée sur des séquences linguistiques longues

Les benchmarks en traitement du langage naturel se sont principalement concentrés sur des textes courts, tels que des phrases et des paragraphes, malgré le fait que les textes longs représentent une part considérable du langage naturel dans le monde réel. Nous introduisons SCROLLS, une suite de tâches exigeant un raisonnement sur des textes longs. Nous examinons les jeux de données existants sur les textes longs, en sélectionnant manuellement ceux où le texte est naturellement long, tout en privilégiant les tâches nécessitant une synthèse d’informations à travers l’entrée. SCROLLS inclut des tâches de résumé, de réponse à des questions et d’inférence linguistique naturelle, couvrant plusieurs domaines tels que la littérature, la science, les affaires et le divertissement. Les premiers modèles de référence, notamment Longformer Encoder-Decoder, montrent qu’il reste une marge importante d’amélioration sur SCROLLS. Nous mettons tous les jeux de données à disposition sous une forme unifiée text-to-text et hébergeons une table des scores en temps réel afin de faciliter la recherche sur les architectures de modèles et les méthodes de pré-entraînement.