HyperAIHyperAI

Command Palette

Search for a command to run...

マスクモデルリング・デュオ:両方のネットワークに入力をモデル化することを促すことで表現を学習する

Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi Noboru Harada Kunio Kashino

概要

マスクドオートエンコーダー(Masked Autoencoders)は、シンプルでありながら強力な自己教師学習手法である。しかしながら、この手法は入力パッチをマスクした上でその復元を通じて表現を間接的に学習する。一方で、マスクされたパッチの表現を予測することによって表現を直接学習する手法もいくつか提案されている。しかし、我々はすべてのパッチを用いて訓練信号の表現をエンコードする方法が最適ではないと考えている。そこで、マスクされたパッチのみを用いて訓練信号を取得しつつ、表現を直接学習する新たな手法、マスクドモデリングデュオ(Masked Modeling Duo, M2D)を提案する。M2Dでは、オンラインネットワークが可視パッチを符号化し、マスクされたパッチの表現を予測する。一方、ターゲットネットワーク(モーメンタムエンコーダー)はマスクされたパッチを符号化する。ターゲット表現をよりよく予測するためには、オンラインネットワークが入力の構造を適切にモデル化する必要があり、同時にターゲットネットワークも入力をよくモデル化することで、オンラインネットワークの予測と整合性を持たせる必要がある。このようにして学習された表現は、入力の構造をより良い形で捉えることになる。我々は、汎用音声表現の学習を通じてM2Dの有効性を検証し、UrbanSound8K、VoxCeleb1、AudioSet20K、GTZAN、SpeechCommandsV2といったタスクにおいて、新たなSOTA(最良の成果)を達成した。さらに、付録においてImageNet-1Kを用いた画像認識タスクを通じて、M2Dの有効性についても検証している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています