15日前

オーディオビジュアルマスク自動符号化器

Mariana-Iuliana Georgescu, Eduardo Fonseca, Radu Tudor Ionescu, Mario Lucic, Cordelia Schmid, Anurag Arnab
オーディオビジュアルマスク自動符号化器
要約

動画にすでに含まれる音声視覚情報を利用することで、自己教師付き表現学習を改善できるだろうか?この問いに答えるために、自然言語および画像理解分野で成功を収めた類似手法を参考に、マスクされた自己符号化(masked autoencoding)フレームワーク内でのさまざまな事前学習アーキテクチャおよび目的関数を検討した。その結果、音声視覚同時下流分類タスクにおいて顕著な性能向上が達成でき、VGGSoundおよびAudioSetにおいて既存の最先端技術を上回ることを示した。さらに、単一の音声視覚事前学習モデルを用いて、複数の単モーダル下流タスクに応用可能であることを実証した。また、我々の表現の転移可能性も確認し、Epic Kitchensにおいて特にこのデータセット向けに事前学習を行わずに、最先端の音声視覚性能を達成した。

オーディオビジュアルマスク自動符号化器 | 最新論文 | HyperAI超神経