MASS : Pré-entraînement masqué de séquence à séquence pour la génération de langage

Le pré-entraînement et le réglage fin, par exemple BERT, ont connu un grand succès dans la compréhension des langues en transférant les connaissances d'une tâche de pré-entraînement riche en ressources vers des tâches aval pauvres ou nulles en ressources. Inspirés par le succès de BERT, nous proposons le pré-entraînement de séquence à séquence masquée (MASS) pour les tâches de génération de langage basées sur l'encodeur-décodeur. MASS utilise le cadre encodeur-décodeur pour reconstruire un fragment de phrase à partir de la partie restante de la phrase : son encodeur prend en entrée une phrase avec un fragment masqué aléatoirement (plusieurs jetons consécutifs), et son décodeur essaie de prédire ce fragment masqué. De cette manière, MASS peut entraîner conjointement l'encodeur et le décodeur pour développer leurs capacités d'extraction de représentations et de modélisation linguistique. En effectuant un réglage fin supplémentaire sur diverses tâches de génération de langage pauvres ou nulles en ressources, notamment la traduction automatique neuronale, la résumation textuelle et la génération de réponses conversationnelles (3 tâches au total sur 8 jeux de données), MASS obtient des améliorations significatives par rapport aux modèles de base sans pré-entraînement ou avec d'autres méthodes de pré-entraînement. Particulièrement, nous atteignons l'état de l'art en termes de précision (37,5 selon le score BLEU) pour la traduction non supervisée anglais-français, surpassant même les premiers modèles supervisés basés sur l'attention.