17日前

VATT:原始動画、音声およびテキストからのマルチモーダル自己教師学習のためのTransformer

Hassan Akbari, Liangzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, Boqing Gong
VATT:原始動画、音声およびテキストからのマルチモーダル自己教師学習のためのTransformer
要約

ラベルなしデータからマルチモーダル表現を学習するためのフレームワークを提示する。具体的には、原始信号を入力として取り、さまざまな下流タスクに有益な十分な表現力を備えたマルチモーダル表現を抽出する「Video-Audio-Text Transformer(VATT)」を提案する。VATTは、マルチモーダルコントラスティブ損失を用いてエンド・ツー・エンドでスクラッチから訓練し、動画行動認識、音声イベント分類、画像分類、テキストから動画を検索するタスク(text-to-video retrieval)といった下流タスクにおいてその性能を評価している。さらに、3つのモダリティ間で重みを共有するモダリティに依存しない単一バックボーンのTransformerを検討した。その結果、畳み込みを用いないVATTが、下流タスクにおいて最先端のConvNetベースのアーキテクチャを上回ることを示した。特に、VATTの視覚Transformerは、教師あり事前学習を一切行わず、Kinetics-400でトップ1精度82.1%、Kinetics-600で83.6%、Kinetics-700で72.7%、Moments in Timeでは41.1%を達成し、いずれも新たな記録を樹立した。画像分類への転移学習では、同じTransformerをスクラッチから訓練した場合の64.7%に対して、ImageNetで78.7%のトップ1精度を達成しており、動画と画像のドメインギャップがあるにもかかわらず、本モデルの汎化能力の高さを示している。また、VATTの音声Transformerは、教師あり事前学習を一切行わず、Waveformベースの音声イベント認識タスクにおいてAudioSetでmAP 39.4%を達成し、新たな記録を樹立した。VATTのソースコードは公開されている。