7日前

Clover:統一されたビデオ・言語アライメントおよび統合モデルへの道筋

Jingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun, Rongrong Ji
Clover:統一されたビデオ・言語アライメントおよび統合モデルへの道筋
要約

さまざまな動画理解タスク(例:テキスト-動画検索、動画質問応答など)を統一的に処理できる汎用的な動画-言語モデルの構築は、機械学習分野における未解決の課題である。この目標に向けて、近年の大多数の研究では、単モーダルおよびクロスモーダル特徴エンコーダを段階的に積み重ねたモデルを構築し、ペアワイズな対比学習(contrastive pre-text task)を用いて訓練している。こうしたアプローチは高い汎用性を示すものの、効率性と性能の両立に課題を抱えている。実際、多くのモデルは異なる下流タスクに対応するために異なるアーキテクチャを採用せざるを得ない。本研究では、このような課題の原因がペアワイズ学習が異なるモーダル間の特徴を十分に「アライメント(統一)」および「フェュージョン(融合)」できない点にあると指摘する。そこで、性能や効率の妥協なく複数の動画理解タスクを処理可能な汎用的動画-言語モデルを実現するため、Clover——相関型動画-言語事前学習手法——を提案する。Cloverは、新規の三モーダルアライメント事前学習タスクを導入することで、クロスモーダル特徴のアライメントと融合を向上させる。さらに、意味的マスクサンプルからの学習を組み込み、新たなペアワイズランクリング損失を導入することで、三モーダルアライメントを強化する。実験の結果、Cloverはゼロショットおよびファインチューニング設定を含む3つの検索タスクおよび8つの動画質問応答タスクにおいて、複数の下流タスクで新たなSOTA(最良の結果)を達成した。コードおよび事前学習済みモデルは、\url{https://github.com/LeeYN-43/Clover} にて公開される予定である。