Les Modèles de Langage ne sont pas seulement utiles pour l'entraînement préalable : une modélisation rapide en temps réel de canal bruité neuronale

La pré-formation de modèles sur de vastes quantités de données non étiquetées s’est imposée comme une approche efficace pour améliorer la précision sur de nombreuses tâches de traitement du langage naturel (NLP). D’un autre côté, la traduction automatique traditionnelle dispose depuis longtemps d’une expérience dans l’utilisation de données non étiquetées grâce à la modélisation du canal bruité. Cette même idée a récemment été démontrée efficace pour améliorer significativement la traduction automatique neuronale. Malheureusement, l’application naïve de la modélisation du canal bruité aux modèles modernes de séquence à séquence est jusqu’à un ordre de grandeur plus lente que les alternatives existantes. Nous résolvons ce problème en proposant des approximations efficaces qui rendent l’inférence avec l’approche du canal bruité aussi rapide que celle des ensembles forts, tout en augmentant la précision. Nous montrons également que l’approche du canal bruité peut surpasser les résultats obtenus par la pré-formation avancée, atteignant ainsi un nouveau record sur la tâche de traduction roumain-anglais du WMT.