HyperAIHyperAI

Command Palette

Search for a command to run...

TVQA+: 動画質問応答のための空間時間的基盤

Jie Lei Licheng Yu Tamara L. Berg Mohit Bansal

概要

私たちは、時空間動画質問応答(Spatio-Temporal Video Question Answering)という課題を提示します。この課題では、知能システムが自然言語の質問に答えるために、関連する瞬間を同時に検索し、参照される視覚的概念(人物と物体)を検出することが求められます。まず、TVQAデータセットに310,800件のバウンディングボックスを追加し、描かれた物体を質問と回答における視覚的概念にリンクさせました。この拡張版をTVQA+と名付けます。次に、時空間領域で証拠を根ざす統一フレームワークである「時空間応答者(Spatio-Temporal Answerer with Grounded Evidence, STAGE)」を提案します。包括的な実験と分析により、私たちのフレームワークの有効性が示され、TVQA+データセットの豊富なアノテーションが質問応答タスクにどのように貢献するかが明らかになりました。さらに、この結合タスクを行うことで、モデルは洞察力があり解釈可能な時空間注意可視化を生成することができます。データセットとコードは公開されており、以下のURLからアクセスできます: http://tvqa.cs.unc.edu, https://github.com/jayleicn/TVQAplus


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
TVQA+: 動画質問応答のための空間時間的基盤 | 記事 | HyperAI超神経