AutoDropout: Lernen von Dropout-Mustern zur Regularisierung tiefer Netze

Neuronale Netze sind oft überparametrisiert und profitieren daher von einer aggressiven Regularisierung. Herkömmliche Regularisierungsmethoden wie Dropout oder Weight Decay nutzen die Strukturen der Eingaben und verborgenen Zustände des Netzwerks nicht aus. Daher sind diese klassischen Ansätze weniger effektiv als Methoden, die solche Strukturen ausnutzen, wie beispielsweise SpatialDropout oder DropBlock, die zufällig kontinuierliche Bereiche in den verborgenen Zuständen auswählen und deren Werte auf null setzen. Obwohl die Positionen der ausgelassenen Bereiche zufällig gewählt werden, sind die Muster von SpatialDropout und DropBlock manuell entworfen und festgelegt. In diesem Beitrag schlagen wir vor, die Dropout-Muster zu lernen. In unserer Methode lernt ein Controller, für jede Kanal- und Schichtstufe eines Zielnetzwerks – etwa eines ConvNets oder eines Transformers – ein Dropout-Muster zu generieren. Das Zielnetzwerk wird dann mit diesem Muster trainiert, und die resultierende Validierungsleistung dient als Signal für den Controller, um daraus zu lernen. Wir zeigen, dass diese Methode sowohl bei der Bilderkennung auf CIFAR-10 und ImageNet als auch bei der Sprachmodellierung auf Penn Treebank und WikiText-2 gut funktioniert. Die gelernten Dropout-Muster lassen sich zudem auf verschiedene Aufgaben und Datensätze übertragen, beispielsweise von einem Sprachmodell auf Penn Treebank auf die Übersetzung Englisch-Französisch auf WMT 2014. Unser Code wird verfügbar gemacht.