2ヶ月前
コントラスティブ音声視覚マスクオートエンコーダー
Yuan Gong; Andrew Rouditchenko; Alexander H. Liu; David Harwath; Leonid Karlinsky; Hilde Kuehne; James Glass

要約
本論文では、まず最近のマスク付きオートエンコーダ(MAE)モデルを単一モダリティから音響-視覚多モダリティへと拡張します。その後、コントラスティブ学習とマスク付きデータモデリングという2つの主要な自己監督学習フレームワークを組み合わせて、共通かつ協調的な音響-視覚表現を学習するためのコントラスティブ音響-視覚マスク付きオートエンコーダ(CAV-MAE)を提案します。実験結果は、コントラスティブ音響-視覚対応学習目的がモデルに音響-視覚検索タスクを遂行させるだけでなく、より優れた共通表現の学習にも寄与することを示しています。その結果、完全に自己監督で事前学習されたCAV-MAEはVGGSoundにおいて新しい最先端の精度65.9%を達成し、AudioSetにおける音響-視覚イベント分類タスクにおいても従来の最良の教師あり事前学習モデルと匹敵する性能を発揮しました。コードおよび事前学習済みモデルは以下のURLで公開されています: https://github.com/yuangongnd/cav-mae.