CDLM : Modélisation linguistique inter-documentaire

Nous présentons une nouvelle approche de préentraînement destinée à la modélisation linguistique multi-document, intégrant deux idées clés dans l'objectif auto-supervisé de modélisation linguistique masquée. Premièrement, au lieu de considérer les documents de manière isolée, nous effectuons le préentraînement sur des ensembles de plusieurs documents connexes, encourageant ainsi le modèle à apprendre les relations inter-documentaires. Deuxièmement, nous améliorons les Transformers récents à longue portée en introduisant une attention globale dynamique qui a accès à l'ensemble de l'entrée pour prédire les jetons masqués. Nous mettons à disposition CDLM (Cross-Document Language Model), un nouveau modèle linguistique général pour le contexte multi-document qui peut être facilement appliqué aux tâches en aval. Notre analyse approfondie montre que ces deux idées sont essentielles au succès du CDLM et qu'elles fonctionnent en synergie pour établir de nouveaux résultats d'état de l'art pour plusieurs tâches multi-texte. Le code et les modèles sont disponibles sur https://github.com/aviclu/CDLM.