HyperAIHyperAI
il y a un mois

Pousser les limites de la désactivation aléatoire

Gábor Melis; Charles Blundell; Tomáš Kočiský; Karl Moritz Hermann; Chris Dyer; Phil Blunsom
Pousser les limites de la désactivation aléatoire
Résumé

Nous démontrons que l'entraînement par dropout est mieux compris comme effectuant une estimation MAP simultanée pour une famille de modèles conditionnels dont les objectifs sont eux-mêmes minorés par l'objectif initial du dropout. Cette découverte nous permet de choisir n'importe quel modèle au sein de cette famille après l'entraînement, ce qui entraîne une amélioration substantielle dans la modélisation linguistique à forte régularisation. La famille comprend des modèles qui calculent une moyenne de puissance sur les masques de dropout échantillonnés, ainsi que leurs sous-variants moins stochastiques avec des bornes inférieures plus serrées et plus élevées que l'objectif de dropout entièrement stochastique. Nous soutenons que, puisque la borne du sous-variant déterministe est égale à son objectif et est la plus élevée parmi ces modèles, la vision prédominante selon laquelle il s'agit d'une bonne approximation de l'agrégation MC (Monte Carlo) est trompeuse. Au lieu de cela, le dropout déterministe est la meilleure approximation disponible de l'objectif réel.

Pousser les limites de la désactivation aléatoire | Articles de recherche récents | HyperAI