DeLighT : Transformer profond et léger

Nous introduisons un modèle transformer profond et léger, appelé DeLighT, qui atteint des performances similaires ou supérieures à celles des modèles standard basés sur les transformateurs, tout en utilisant significativement moins de paramètres. DeLighT alloue de manière plus efficace les paramètres à la fois (1) à l’intérieur de chaque bloc Transformer grâce à la transformation DeLighT, une transformation profonde et légère, et (2) entre les blocs grâce à une mise à l’échelle par blocs, permettant ainsi des blocs DeLighT plus fins et plus superficiels près de l’entrée, et des blocs plus larges et plus profonds près de la sortie. Globalement, les réseaux DeLighT sont de 2,5 à 4 fois plus profonds que les modèles transformer standards, tout en comportant moins de paramètres et d’opérations. Des expériences menées sur des tâches standard de traduction automatique et de modélisation linguistique montrent que DeLighT égale ou améliore les performances des transformateurs de référence, avec en moyenne 2 à 3 fois moins de paramètres. Notre code source est disponible à l’adresse suivante : \url{https://github.com/sacmehta/delight}