il y a 17 jours

Lite Transformer à attention à portée longue et courte

Zhanghao Wu, Zhijian Liu, Ji Lin, Yujun Lin, Song Han

Résumé

Transformer est devenu omniprésent dans le traitement du langage naturel (par exemple, traduction automatique, réponse aux questions) ; toutefois, son fonctionnement exige une quantité considérable de calculs pour atteindre une haute performance, ce qui le rend peu adapté aux applications mobiles, fortement contraintes par les ressources matérielles et la batterie. Dans cet article, nous présentons une architecture NLP mobile efficace, Lite Transformer, destinée à faciliter le déploiement d’applications NLP sur les dispositifs embarqués. La composante clé est l’attention à portée longue et courte (Long-Short Range Attention, LSRA), dans laquelle un groupe de têtes se spécialise dans la modélisation du contexte local (par convolution), tandis qu’un autre groupe se concentre sur la modélisation des relations à longue distance (par attention). Cette spécialisation permet d’améliorer de manière cohérente le modèle Transformer classique sur trois tâches linguistiques bien établies : traduction automatique, résumé abstrait et modélisation du langage. Dans des conditions de ressources restreintes (500M / 100M MACs), Lite Transformer dépasse le Transformer sur le corpus WMT'14 anglais-français de 1,2 / 1,7 points BLEU respectivement. Lite Transformer réduit la charge de calcul du modèle Transformer de base de 2,5 fois, avec une dégradation négligeable du score BLEU (0,3 point). En combinant cette architecture avec la suppression de poids (pruning) et la quantification, nous réduisons davantage la taille du modèle Lite Transformer de 18,2 fois. Pour la modélisation du langage, Lite Transformer atteint une perplexité inférieure de 1,8 par rapport au Transformer, à environ 500M MACs. Notamment, Lite Transformer surpasse le Transformer évolué basé sur l’AutoML de 0,5 point BLEU dans un cadre mobile, sans nécessiter la recherche coûteuse d’architecture, qui requiert plus de 250 années de calcul GPU. Le code source est disponible à l’adresse suivante : https://github.com/mit-han-lab/lite-transformer.