BPE-Dropout : une régularisation sous-mot simple et efficace

La segmentation en sous-mots est largement utilisée pour résoudre le problème du vocabulaire ouvert en traduction automatique. La méthode dominante pour la segmentation en sous-mots est l’encodage par paires d’octets (Byte Pair Encoding, BPE), qui conserve les mots les plus fréquents intacts tout en divisant les mots rares en plusieurs tokens. Bien que plusieurs segmentations soient théoriquement possibles même avec un même vocabulaire, BPE divise les mots en séquences uniques ; cette propriété peut entraver l’apprentissage par le modèle de la compositionnalité des mots et sa robustesse aux erreurs de segmentation. Jusqu’à présent, la seule manière de surmonter cette limitation inhérente à BPE, due à sa nature déterministe, était de concevoir un nouvel algorithme de segmentation en sous-mots (Kudo, 2018). À l’inverse, nous montrons que BPE possède en réalité la capacité intrinsèque à produire plusieurs segmentations pour un même mot. Nous introduisons BPE-dropout, une méthode simple et efficace de régularisation en sous-mots fondée sur et compatible avec BPE classique. Cette méthode perturbe de manière stochastique le processus de segmentation de BPE, permettant ainsi de générer plusieurs segmentations différentes au sein du même cadre BPE fixe. L’utilisation de BPE-dropout pendant l’entraînement, combinée à BPE standard pendant l’inférence, améliore la qualité de traduction de jusqu’à 3 points BLEU par rapport à BPE, et de jusqu’à 0,9 point BLEU par rapport à la régularisation en sous-mots précédente.