HyperAIHyperAI

Command Palette

Search for a command to run...

Tem-Adapter:動画質問応答のための画像-テキスト事前学習の適応

Guangyi Chen Xiao Liu Guangrun Wang Kun Zhang Philip H.S.Torr Xiao-Ping Zhang Yansong Tang

概要

動画言語事前学習モデルは、動画質問応答(VideoQA)タスクのガイドとして顕著な成果を上げている。しかし、動画シーケンスの長さのため、画像ベースのモデルと比較して、大規模な動画ベースモデルの学習コストは著しく高くなる。このため、画像と動画のドメイン間に顕著なギャップが存在するにもかかわらず、画像ベースの事前学習知識を活用する必要性が生じる。本論文では、こうしたギャップを埋めるために、視覚的時間整合器(Temporal Aligner)とテキスト的意味整合器(Semantic Aligner)を用いて、時間的ダイナミクスおよび複雑な意味構造の学習を可能にする「Tem-Adapter」を提案する。従来の事前学習知識の適応手法が下流タスクの目的にのみ焦点を当てるのに対し、Temporal Alignerは、歴史的証拠とイベント進行を記述する言語的ガイダンスに基づいて将来の状態を予測するという、言語誘導型自己回帰タスクを追加することで、時間的依存関係の学習を促進する。さらに、意味的ギャップを低減し、テキスト表現をより良いイベント記述に適応させるために、質問と回答のペアをイベント記述として統合するためのテンプレートを設計し、全動画シーケンスをガイドとして用いたTransformerデコーダを学習するSemantic Alignerを導入する。本手法であるTem-Adapterおよびさまざまな事前学習転移手法を、2つのVideoQAベンチマークで評価した結果、顕著な性能向上が確認され、本手法の有効性が実証された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています