HyperAIHyperAI

Command Palette

Search for a command to run...

コントラスティブ音声視覚マスクオートエンコーダー

Yuan Gong; Andrew Rouditchenko; Alexander H. Liu; David Harwath; Leonid Karlinsky; Hilde Kuehne; James Glass

概要

本論文では、まず最近のマスク付きオートエンコーダ(MAE)モデルを単一モダリティから音響-視覚多モダリティへと拡張します。その後、コントラスティブ学習とマスク付きデータモデリングという2つの主要な自己監督学習フレームワークを組み合わせて、共通かつ協調的な音響-視覚表現を学習するためのコントラスティブ音響-視覚マスク付きオートエンコーダ(CAV-MAE)を提案します。実験結果は、コントラスティブ音響-視覚対応学習目的がモデルに音響-視覚検索タスクを遂行させるだけでなく、より優れた共通表現の学習にも寄与することを示しています。その結果、完全に自己監督で事前学習されたCAV-MAEはVGGSoundにおいて新しい最先端の精度65.9%を達成し、AudioSetにおける音響-視覚イベント分類タスクにおいても従来の最良の教師あり事前学習モデルと匹敵する性能を発揮しました。コードおよび事前学習済みモデルは以下のURLで公開されています: https://github.com/yuangongnd/cav-mae.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています