17日前

CREMA:マルチモーダルモジュール融合を用いた汎用的かつ効率的なビデオ・言語推論

Shoubin Yu, Jaehong Yoon, Mohit Bansal
CREMA:マルチモーダルモジュール融合を用いた汎用的かつ効率的なビデオ・言語推論
要約

最近のマルチモーダル推論アプローチにおいては、著しい進展が見られますが、依然として柔軟性および効率性に限界があります。これらのモデルは通常、固定された少数のモダリティ入力しか処理できず、多数のパラメータを更新する必要があるためです。本論文では、こうした重要な課題に取り組み、任意の新しいモダリティを統合して動画推論を強化できる汎用性が高く、効率的かつモジュール式のモダリティ統合フレームワーク「CREMA」を提案します。まず、センサーまたは既存の事前学習モデルを活用することで、人手によるアノテーションを追加せずに、与えられた動画から光学フロー、3Dポイントクラウド、音声、赤外線ヒートマップ、タッチマップなど、複数の情報量豊かなモダリティを抽出します。次に、各利用可能なモダリティに対応する複数のパラメータ効率的なモジュールを備えたクエリトランスフォーマーを導入します。これにより、多様なモダリティ特徴が大規模言語モデル(LLM)のトークン埋め込み空間に射影され、異なるデータタイプを統合して応答生成が可能になります。さらに、軽量な統合モジュールとモダリティ順次学習戦略を支援する新たな段階的マルチモーダル統合設計を提案します。この設計により、さまざまな補助的モダリティ間の情報を圧縮しつつ、LLMにおける計算効率を維持しつつ性能を向上させます。我々は、従来のVideoQAに加え、Video-Audio/3D/Touch/Thermal QAを含む、7種類の動画・言語推論タスクにおいて本手法を検証し、OneLLM、BLIP-2、SeViLAなど強力なマルチモーダルLLMと比較して、同等または優れた性能を達成しつつ、学習可能なパラメータ数を90%以上削減することに成功しました。また、CREMAの詳細な分析として、各モダリティが推論領域に与える影響、統合モジュールの設計、および例示的な可視化結果も提供しています。

CREMA:マルチモーダルモジュール融合を用いた汎用的かつ効率的なビデオ・言語推論 | 最新論文 | HyperAI超神経