3ヶ月前

MMTF：常識動画質問応答のためのマルチモーダル時系列融合

{Sanguk Park Dongchan Park Geonwoo Park Mobeen Ahmad}

要約

動画質問応答（Video Question Answering）は、動画と質問を同一の文脈で理解する必要がある挑戦的なタスクである。特に、将来の出来事の予測や反事実的な出来事の説明といった推論を要する質問の場合、明示的に提示されていない知識が必要となるため、その難易度はさらに高まる。従来の手法は、動画と言語特徴の粗い統合（coarse-grained fusion）に依存しており、時間的情報を十分に考慮していない。これを解決するために、本研究では動画と質問の時間的文脈を学習する新しい視覚-テキスト統合モジュールを提案する。本モジュールは、質問トークンを動画の時間軸に沿って拡張し、動画特徴と融合することで、局所的およびグローバルな文脈を含む新たな表現を生成する。提案手法は、MSVD-QA、NExT-QA、Causal-VidQA、AGQA-2.0 の4つのVideoQAデータセットにおいて評価された。

ベンチマーク

ベンチマーク	方法論	指標
video-question-answering-on-agqa-2-0-balanced	MMTF	Average Accuracy: 44.36

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

MMTF：常識動画質問応答のためのマルチモーダル時系列融合

{Sanguk Park Dongchan Park Geonwoo Park Mobeen Ahmad}

要約

ベンチマーク

AI で AI を構築

Hyper Newsletters