9日前

Mirasol3B:時系列同期かつ文脈的なモダリティ向けのマルチモーダル自己回帰モデル

AJ Piergiovanni, Isaac Noble, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova
Mirasol3B:時系列同期かつ文脈的なモダリティ向けのマルチモーダル自己回帰モデル
要約

マルチモーダル学習の主な課題の一つは、異種のモダリティ(例:動画、音声、テキスト)を統合する必要がある点である。たとえば、動画と音声はテキストよりもはるかに高いレートで取得され、時間的に概ね同期しているが、テキストは全体的な文脈(例:タイトルや説明文)として提供されるため、しばしば動画・音声と同期していない。さらに、動画と音声の入力は非常に大きなデータ量を占め、動画の長さに応じてその量が増加するため、これらのモダリティに特化した計算リソースを多く要し、長距離依存関係のモデリングが困難となる。本研究では、マルチモーダルモデリングを分離し、各モダリティの特性に応じて焦点を絞った自己回帰モデルに分割することで、この課題に取り組む。提案するマルチモーダルモデル「Mirasol3B」は、時間的に同期するモダリティ(音声と動画)を処理する自己回帰コンポーネントと、時間的に必ずしも同期しなくても順序性を持つ文脈モダリティ(例:タイトルや説明文)を処理する自己回帰コンポーネントから構成される。動画・音声入力の長序列に対処するため、これらのシーケンスを連続するスニペットに分割し、各スニペットの表現を自己回帰的に処理する手法を提案する。この目的のために、時間枠内での音声・動画情報を統合的にモデリングする「Combiner」機構を導入する。Combinerは、原始的な時空間信号から音声および動画特徴を抽出し、それらを融合することで、各スニペットごとにコンパクトかつ表現力豊かな表現を生成する学習を実現する。本手法は、広く用いられるマルチモーダルベンチマークにおいて、はるかに大きなモデルを上回る最先端の性能を達成している。また、動画・音声入力の高い計算負荷を、コンパクトな表現の学習、音声・動画特徴表現のシーケンス長の制御、および時間的な依存関係のモデリングという3つの観点から効果的に軽減している。