PRIMERA : Pré-entraînement par phrase masquée basé sur la pyramide pour la synthèse de documents multiples

Nous présentons PRIMERA, un modèle pré-entraîné pour la représentation multi-document avec un accent sur la synthèse, qui réduit la nécessité d’architectures spécifiques aux jeux de données et de grandes quantités de données étiquetées pour le fine-tuning. PRIMERA utilise notre nouvel objectif de pré-entraînement, conçu pour enseigner au modèle à relier et agréger l’information entre documents. Il s’appuie également sur des transformateurs encodeur-décodeur efficaces afin de simplifier le traitement des documents concaténés. Grâce à des expériences approfondies sur 6 jeux de données de synthèse multi-document provenant de 3 domaines différents, dans des configurations zéro-shot, few-shot et supervisées complètes, PRIMERA dépasse largement les modèles actuels d’état de l’art, qu’ils soient spécifiques aux jeux de données ou pré-entraînés, sur la plupart de ces configurations. Le code source et les modèles pré-entraînés sont disponibles à l’adresse \url{https://github.com/allenai/PRIMER}.