HyperAIHyperAI
vor 11 Tagen

Masked Modeling Duo: Lernen von Repräsentationen durch Anregung beider Netzwerke, die Eingabe zu modellieren

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino
Masked Modeling Duo: Lernen von Repräsentationen durch Anregung beider Netzwerke, die Eingabe zu modellieren
Abstract

Masked Autoencoders ist eine einfache, jedoch leistungsstarke Methode des selbstüberwachten Lernens. Allerdings lernt sie Darstellungen indirekt, indem sie maskierte Eingabepatches rekonstruiert. Mehrere Methoden lernen Darstellungen direkt, indem sie die Darstellungen maskierter Patches vorhersagen; wir vermuten jedoch, dass die Nutzung aller Patches zur Generierung von Trainingssignalen suboptimal ist. Wir schlagen eine neue Methode, Masked Modeling Duo (M2D), vor, die Darstellungen direkt lernt, während sie Trainingssignale ausschließlich anhand maskierter Patches erhält. In M2D kodiert das Online-Netzwerk sichtbare Patches und prognostiziert die Darstellungen maskierter Patches, während das Ziel-Netzwerk, ein Momentum-Encoder, die maskierten Patches kodiert. Um die Ziel-Darstellungen besser vorhersagen zu können, muss das Online-Netzwerk die Eingabe gut modellieren, während das Ziel-Netzwerk ebenfalls eine gute Modellierung der Eingabe leisten sollte, um mit den Vorhersagen des Online-Netzwerks übereinzustimmen. Dadurch sollten die gelernten Darstellungen die Eingabe besser modellieren. Wir haben M2D anhand der Lernung allgemeiner Audio-Darstellungen validiert und erreichte dabei neue SOTA-Leistungen (State-of-the-Art) bei Aufgaben wie UrbanSound8K, VoxCeleb1, AudioSet20K, GTZAN und SpeechCommandsV2. Die Wirksamkeit von M2D für Bilder wird zudem im Anhang anhand von ImageNet-1K überprüft.

Masked Modeling Duo: Lernen von Repräsentationen durch Anregung beider Netzwerke, die Eingabe zu modellieren | Neueste Forschungsarbeiten | HyperAI