9日前

Tem-Adapter：動画質問応答のための画像-テキスト事前学習の適応

Guangyi Chen, Xiao Liu, Guangrun Wang, Kun Zhang, Philip H.S.Torr, Xiao-Ping Zhang, Yansong Tang

要約

動画言語事前学習モデルは、動画質問応答（VideoQA）タスクのガイドとして顕著な成果を上げている。しかし、動画シーケンスの長さのため、画像ベースのモデルと比較して、大規模な動画ベースモデルの学習コストは著しく高くなる。このため、画像と動画のドメイン間に顕著なギャップが存在するにもかかわらず、画像ベースの事前学習知識を活用する必要性が生じる。本論文では、こうしたギャップを埋めるために、視覚的時間整合器（Temporal Aligner）とテキスト的意味整合器（Semantic Aligner）を用いて、時間的ダイナミクスおよび複雑な意味構造の学習を可能にする「Tem-Adapter」を提案する。従来の事前学習知識の適応手法が下流タスクの目的にのみ焦点を当てるのに対し、Temporal Alignerは、歴史的証拠とイベント進行を記述する言語的ガイダンスに基づいて将来の状態を予測するという、言語誘導型自己回帰タスクを追加することで、時間的依存関係の学習を促進する。さらに、意味的ギャップを低減し、テキスト表現をより良いイベント記述に適応させるために、質問と回答のペアをイベント記述として統合するためのテンプレートを設計し、全動画シーケンスをガイドとして用いたTransformerデコーダを学習するSemantic Alignerを導入する。本手法であるTem-Adapterおよびさまざまな事前学習転移手法を、2つのVideoQAベンチマークで評価した結果、顕著な性能向上が確認され、本手法の有効性が実証された。