vor einem Monat

Die Grenzen des Dropouts erweitern

Gábor Melis; Charles Blundell; Tomáš Kočiský; Karl Moritz Hermann; Chris Dyer; Phil Blunsom

Abstract

Wir zeigen, dass das Dropout-Training am besten als die gleichzeitige Durchführung der MAP-Schätzung für eine Familie von bedingten Modellen verstanden werden kann, deren Ziele durch das ursprüngliche Dropout-Ziel nach unten beschränkt sind. Diese Erkenntnis ermöglicht es uns, nach dem Training jedes beliebige Modell aus dieser Familie auszuwählen, was zu einem erheblichen Fortschritt bei der regularisierungsintensiven Sprachmodellierung führt. Die Familie umfasst Modelle, die ein Potenzmittel über die abgetasteten Dropout-Masken berechnen, und ihre weniger stochastischen Untervarianten mit engeren und höheren unteren Schranken als das vollständig stochastische Dropout-Ziel. Wir argumentieren, dass da die deterministische Untervariante ihre Schranke ihrem Ziel entspricht und unter diesen Modellen die höchste ist, die vorherrschende Auffassung, sie sei eine gute Approximation des MC-Durchschnitts (MC averaging), irreführend ist. Vielmehr ist deterministisches Dropout die beste verfügbare Approximation des wahren Ziels.