11日前

マスクモデルリング・デュオ：両方のネットワークに入力をモデル化することを促すことで表現を学習する

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino

要約

マスクドオートエンコーダー（Masked Autoencoders）は、シンプルでありながら強力な自己教師学習手法である。しかしながら、この手法は入力パッチをマスクした上でその復元を通じて表現を間接的に学習する。一方で、マスクされたパッチの表現を予測することによって表現を直接学習する手法もいくつか提案されている。しかし、我々はすべてのパッチを用いて訓練信号の表現をエンコードする方法が最適ではないと考えている。そこで、マスクされたパッチのみを用いて訓練信号を取得しつつ、表現を直接学習する新たな手法、マスクドモデリングデュオ（Masked Modeling Duo, M2D）を提案する。M2Dでは、オンラインネットワークが可視パッチを符号化し、マスクされたパッチの表現を予測する。一方、ターゲットネットワーク（モーメンタムエンコーダー）はマスクされたパッチを符号化する。ターゲット表現をよりよく予測するためには、オンラインネットワークが入力の構造を適切にモデル化する必要があり、同時にターゲットネットワークも入力をよくモデル化することで、オンラインネットワークの予測と整合性を持たせる必要がある。このようにして学習された表現は、入力の構造をより良い形で捉えることになる。我々は、汎用音声表現の学習を通じてM2Dの有効性を検証し、UrbanSound8K、VoxCeleb1、AudioSet20K、GTZAN、SpeechCommandsV2といったタスクにおいて、新たなSOTA（最良の成果）を達成した。さらに、付録においてImageNet-1Kを用いた画像認識タスクを通じて、M2Dの有効性についても検証している。