7ヶ月前

視覚質問応答

マルチモーダル表現

マルチモーダル

マルチモーダル

Jie Lei Licheng Yu Tamara L. Berg Mohit Bansal

概要

私たちは、時空間動画質問応答（Spatio-Temporal Video Question Answering）という課題を提示します。この課題では、知能システムが自然言語の質問に答えるために、関連する瞬間を同時に検索し、参照される視覚的概念（人物と物体）を検出することが求められます。まず、TVQAデータセットに310,800件のバウンディングボックスを追加し、描かれた物体を質問と回答における視覚的概念にリンクさせました。この拡張版をTVQA+と名付けます。次に、時空間領域で証拠を根ざす統一フレームワークである「時空間応答者（Spatio-Temporal Answerer with Grounded Evidence, STAGE）」を提案します。包括的な実験と分析により、私たちのフレームワークの有効性が示され、TVQA+データセットの豊富なアノテーションが質問応答タスクにどのように貢献するかが明らかになりました。さらに、この結合タスクを行うことで、モデルは洞察力があり解釈可能な時空間注意可視化を生成することができます。データセットとコードは公開されており、以下のURLからアクセスできます: http://tvqa.cs.unc.edu, https://github.com/jayleicn/TVQAplus

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

視覚質問応答

マルチモーダル表現

マルチモーダル

マルチモーダル

Jie Lei Licheng Yu Tamara L. Berg Mohit Bansal

概要

私たちは、時空間動画質問応答（Spatio-Temporal Video Question Answering）という課題を提示します。この課題では、知能システムが自然言語の質問に答えるために、関連する瞬間を同時に検索し、参照される視覚的概念（人物と物体）を検出することが求められます。まず、TVQAデータセットに310,800件のバウンディングボックスを追加し、描かれた物体を質問と回答における視覚的概念にリンクさせました。この拡張版をTVQA+と名付けます。次に、時空間領域で証拠を根ざす統一フレームワークである「時空間応答者（Spatio-Temporal Answerer with Grounded Evidence, STAGE）」を提案します。包括的な実験と分析により、私たちのフレームワークの有効性が示され、TVQA+データセットの豊富なアノテーションが質問応答タスクにどのように貢献するかが明らかになりました。さらに、この結合タスクを行うことで、モデルは洞察力があり解釈可能な時空間注意可視化を生成することができます。データセットとコードは公開されており、以下のURLからアクセスできます: http://tvqa.cs.unc.edu, https://github.com/jayleicn/TVQAplus

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

TVQA+: 動画質問応答のための空間時間的基盤 | 記事 | HyperAI超神経