HyperAIHyperAI

Command Palette

Search for a command to run...

MMTF:常識動画質問応答のためのマルチモーダル時系列融合

Sanguk Park Dongchan Park Geonwoo Park Mobeen Ahmad

概要

動画質問応答(Video Question Answering)は、動画と質問を同一の文脈で理解する必要がある挑戦的なタスクである。特に、将来の出来事の予測や反事実的な出来事の説明といった推論を要する質問の場合、明示的に提示されていない知識が必要となるため、その難易度はさらに高まる。従来の手法は、動画と言語特徴の粗い統合(coarse-grained fusion)に依存しており、時間的情報を十分に考慮していない。これを解決するために、本研究では動画と質問の時間的文脈を学習する新しい視覚-テキスト統合モジュールを提案する。本モジュールは、質問トークンを動画の時間軸に沿って拡張し、動画特徴と融合することで、局所的およびグローバルな文脈を含む新たな表現を生成する。提案手法は、MSVD-QA、NExT-QA、Causal-VidQA、AGQA-2.0 の4つのVideoQAデータセットにおいて評価された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MMTF:常識動画質問応答のためのマルチモーダル時系列融合 | 記事 | HyperAI超神経