2ヶ月前

自己監督型多モーダル汎用ネットワーク

Jean-Baptiste Alayrac; Adrià Recasens; Rosalia Schneider; Relja Arandjelović; Jason Ramapuram; Jeffrey De Fauw; Lucas Smaira; Sander Dieleman; Andrew Zisserman
自己監督型多モーダル汎用ネットワーク
要約

ビデオは多様なモーダル監督の豊富な情報源です。本研究では、ビデオに自然に存在する3つのモーダル(視覚、音響、言語ストリーム)を活用して、自己監督学習により表現を学習します。この目的のために、マルチモーダル汎用ネットワークという概念を導入しました。これは複数のモーダルを取り扱うことができ、その表現が複数のモーダルにおける下流タスクを可能にするネットワークです。特に、視覚と音響モーダルの細かい表現を維持しつつ、テキストを共通の埋め込みに統合する最良の方法を探求しています。汎用性に基づき、ネットワークが動画や静止画といった視覚データに容易に適用できるようにする新しいディフラクションプロセスも導入しました。このような大規模な未ラベル化ビデオデータで学習したネットワークは、動画、動画-テキスト、画像、音響タスクに適用できます。これらの表現を使用することで、UCF101, HMDB51, Kinetics600, AudioSet, ESC-50などの複数の困難なベンチマークにおいて、以前の自己監督学習研究と比較して最先端の性能を得ています。当社のモデルは公開されています。注:「ディフラクション」(deflation)は一般的には光学や物理分野での屈折や拡散などを指す言葉ですが、「deflation」がここでは新たな技術的な意味を持つためそのまま使用し、「(deflation)」と括弧で原文を示しています。

自己監督型多モーダル汎用ネットワーク | 最新論文 | HyperAI超神経