Dropout Fraternel

Les réseaux de neurones récurrents (RNNs) constituent une classe importante d'architectures parmi les réseaux de neurones, utiles pour la modélisation linguistique et la prédiction séquentielle. Cependant, l'optimisation des RNNs est connue pour être plus difficile que celle des réseaux de neurones à alimentation directe. De nombreuses techniques ont été proposées dans la littérature pour résoudre ce problème. Dans cet article, nous proposons une technique simple appelée « fraternal dropout » qui utilise le dropout pour atteindre cet objectif. Plus précisément, nous suggérons d'entraîner deux copies identiques d'un RNN (qui partagent les paramètres) avec des masques de dropout différents tout en minimisant la différence entre leurs prédictions (pré-softmax). De cette manière, notre régularisation encourage les représentations des RNNs à être invariantes aux masques de dropout, rendant ainsi le modèle plus robuste. Nous montrons que notre terme de régularisation est majoré par l'objectif du dropout linéaire attendu, qui a été démontré pour combler l'écart dû à la différence entre les phases d'entraînement et d'inférence du dropout. Nous évaluons notre modèle et obtenons des résultats de pointe dans les tâches de modélisation séquentielle sur deux jeux de données de référence : Penn Treebank et Wikitext-2. Nous montrons également que notre approche améliore significativement les performances dans les tâches de légendage d'images (Microsoft COCO) et d'apprentissage semi-supervisé (CIFAR-10).