MuLD : Le Benchmark de Documents Longs Multitâche

Les progrès impressionnants dans les techniques de traitement du langage naturel (NLP) ont été stimulés par le développement de benchmarks multi-tâches tels que GLUE et SuperGLUE. Bien que ces benchmarks se concentrent sur des tâches impliquant une ou deux phrases en entrée, il y a eu des travaux passionnants visant à concevoir des techniques efficaces pour traiter des entrées beaucoup plus longues. Dans cet article, nous présentons MuLD : un nouveau benchmark de documents longs composé uniquement de documents comportant plus de 10 000 jetons. En modifiant les tâches existantes en NLP, nous créons un benchmark diversifié qui nécessite que les modèles réussissent à modéliser les dépendances à long terme dans le texte. Nous évaluons la performance des modèles existants et constatons que notre benchmark est beaucoup plus difficile que leurs équivalents pour les « documents courts ». De plus, en évaluant à la fois des transformateurs réguliers et efficaces, nous montrons que les modèles avec une longueur de contexte augmentée sont mieux capables de résoudre les tâches présentées, suggérant que les améliorations futures de ces modèles sont essentielles pour résoudre des problèmes similaires liés aux documents longs. Nous mettons à disposition les données et le code pour les baselines afin d'encourager davantage de recherches sur les modèles NLP efficaces.