il y a 4 mois

Mélange rapide et simple de softmax avec BPE et Hybrid-LightRNN pour la génération de langage

Xiang Kong; Qizhe Xie; Zihang Dai; Eduard Hovy

Résumé

Le Mélange de Softmax (MoS) a été démontré comme étant efficace pour surmonter les limitations d'expressivité des modèles basés sur le Softmax. Malgré cet avantage reconnu, l'utilisation du MoS est pratiquement entravée par sa consommation importante de mémoire et de temps de calcul, due à la nécessité de calculer plusieurs Softmax. Dans cette étude, nous nous efforçons de libérer le potentiel du MoS dans les applications pratiques en examinant des schémas améliorés de codage des mots, qui pourraient réduire efficacement la taille du vocabulaire et ainsi alléger la charge en mémoire et en calcul. Nous montrons que tant le BPE (Byte Pair Encoding) que notre proposition de Hybrid-LightRNN conduisent à des mécanismes de codage améliorés permettant de diviser par deux la consommation de temps et de mémoire du MoS sans perte de performance. Avec le MoS, nous obtenons une amélioration de 1,5 point(s) BLEU sur le corpus allemand-anglais IWSLT 2014 et une amélioration de 0,76 point(s) CIDEr dans la légendage d'images. De plus, sur l'ensemble de données plus important WMT 2014 pour la traduction automatique, notre Transformer renforcé par le MoS atteint un score BLEU de 29,5 pour l'anglais-allemand et un score BLEU de 42,1 pour l'anglais-français, surpassant respectivement le Transformer à unique Softmax de 0,8 et 0,4 point(s) BLEU et obtenant le meilleur résultat actuel sur la tâche WMT 2014 anglais-allemand.