HyperAIHyperAI

Command Palette

Search for a command to run...

BPE-Dropout : une régularisation sous-mot simple et efficace

Ivan Provilkov Dmitrii Emelianenko Elena Voita

Résumé

La segmentation en sous-mots est largement utilisée pour résoudre le problème du vocabulaire ouvert en traduction automatique. La méthode dominante pour la segmentation en sous-mots est l’encodage par paires d’octets (Byte Pair Encoding, BPE), qui conserve les mots les plus fréquents intacts tout en divisant les mots rares en plusieurs tokens. Bien que plusieurs segmentations soient théoriquement possibles même avec un même vocabulaire, BPE divise les mots en séquences uniques ; cette propriété peut entraver l’apprentissage par le modèle de la compositionnalité des mots et sa robustesse aux erreurs de segmentation. Jusqu’à présent, la seule manière de surmonter cette limitation inhérente à BPE, due à sa nature déterministe, était de concevoir un nouvel algorithme de segmentation en sous-mots (Kudo, 2018). À l’inverse, nous montrons que BPE possède en réalité la capacité intrinsèque à produire plusieurs segmentations pour un même mot. Nous introduisons BPE-dropout, une méthode simple et efficace de régularisation en sous-mots fondée sur et compatible avec BPE classique. Cette méthode perturbe de manière stochastique le processus de segmentation de BPE, permettant ainsi de générer plusieurs segmentations différentes au sein du même cadre BPE fixe. L’utilisation de BPE-dropout pendant l’entraînement, combinée à BPE standard pendant l’inférence, améliore la qualité de traduction de jusqu’à 3 points BLEU par rapport à BPE, et de jusqu’à 0,9 point BLEU par rapport à la régularisation en sous-mots précédente.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp