Meta Dropout: Lernen der Störung latenter Merkmale zur Verallgemeinerung

Ein maschinelles Lernmodell, das gut generalisieren kann, sollte auf nicht gesehenen Testbeispielen niedrige Fehler erzielen. Wenn wir daher wissen würden, wie wir Trainingsbeispiele optimal stören müssen, um die Testbeispiele zu berücksichtigen, könnten wir eine bessere Generalisierungsleistung erzielen. Allerdings ist eine solche Störung in herkömmlichen maschinellen Lernframeworks nicht möglich, da die Verteilung der Testdaten unbekannt ist. Um diese Herausforderung anzugehen, schlagen wir eine neuartige Regularisierungsmethode, Meta-Dropout, vor, die in einem Meta-Lern-Rahmen lernt, die latente Darstellung von Trainingsbeispielen zur Verbesserung der Generalisierung zu stören. Konkret meta-lernen wir einen Rauschgenerator, der eine multiplikative Rauschverteilung für latente Merkmale ausgibt, um die Fehler auf den Testinstanzen eingabehäufig zu minimieren. Anschließend kann der gelernte Rauschgenerator die Trainingsbeispiele bisher unbekannter Aufgaben zur Meta-Testzeit stören, um die Generalisierung zu verbessern. Wir validieren unsere Methode an Few-Shot-Klassifikationsdatensätzen, wobei die Ergebnisse zeigen, dass sie die Generalisierungsleistung des Basismodells erheblich verbessert und bestehende Regularisierungsmethoden wie Information Bottleneck, Manifold Mixup und Information Dropout deutlich übertrifft.