Réévaluer les perturbations dans les modèles encodeur-décodeur pour une formation rapide

Nous utilisons fréquemment des perturbations pour régulariser les modèles neuronaux. Dans le cas des modèles encodeur-décodeur neuronaux, les études antérieures ont appliqué des techniques telles que l’échantillonnage programmé (Bengio et al., 2015) et les perturbations adversariales (Sato et al., 2019), mais ces méthodes nécessitent un temps de calcul important. Cette étude s’attaque donc à la question de l’efficacité de ces approches en termes de temps d’entraînement. Nous comparons plusieurs méthodes de perturbation dans des problèmes de séquence à séquence en fonction de leur temps de calcul. Les résultats expérimentaux montrent que des techniques simples, telles que le dropout sur les mots (Gal et Ghahramani, 2016) ou le remplacement aléatoire des tokens d’entrée, atteignent des performances comparables (voire supérieures) à celles des perturbations récemment proposées, tout en étant plus rapides. Notre code est disponible publiquement à l’adresse suivante : https://github.com/takase/rethink_perturbations.