Discordで議論

10ヶ月前

視覚質問応答

ビデオ理解

Lifeng Fan Wenjuan Han Ping Wei Jiapeng Li

概要

本稿では、日常的なタスクにおけるAIエージェントが単なる認識を超えた推論能力を備えるために重要な役割を果たす、動画の意図を推論するという新たなタスク「IntentQA」を提案する。このタスクは、AIの進化に伴い、ますます重要な位置を占めるようになっている。また、本タスクを対象とした大規模なVideoQAデータセットを提供する。さらに、i) 情報状況のコンテキストをより効果的に多モーダル表現するための「Video Query Language（VQL）」、ii) 対照的なコンテキストを活用するための「コントラスト学習モジュール」、iii) 一般常識的なコンテキストを統合するための「一般常識推論モジュール」から構成される、コンテキストに配慮した動画意図推論モデル（CaVIR）を提案する。この困難なタスクに対する包括的な実験により、モデル各構成要素の有効性、当該モデル全体の他のベースラインに対する優位性、および新たなVideoQAタスクへの汎化能力が確認された。本研究で開発したデータセットおよびコードは、以下のURLにてオープンソースとして公開されている：https://github.com/JoseponLee/IntentQA.git

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Discordで議論

10ヶ月前

視覚質問応答

ビデオ理解

Lifeng Fan Wenjuan Han Ping Wei Jiapeng Li

概要

本稿では、日常的なタスクにおけるAIエージェントが単なる認識を超えた推論能力を備えるために重要な役割を果たす、動画の意図を推論するという新たなタスク「IntentQA」を提案する。このタスクは、AIの進化に伴い、ますます重要な位置を占めるようになっている。また、本タスクを対象とした大規模なVideoQAデータセットを提供する。さらに、i) 情報状況のコンテキストをより効果的に多モーダル表現するための「Video Query Language（VQL）」、ii) 対照的なコンテキストを活用するための「コントラスト学習モジュール」、iii) 一般常識的なコンテキストを統合するための「一般常識推論モジュール」から構成される、コンテキストに配慮した動画意図推論モデル（CaVIR）を提案する。この困難なタスクに対する包括的な実験により、モデル各構成要素の有効性、当該モデル全体の他のベースラインに対する優位性、および新たなVideoQAタスクへの汎化能力が確認された。本研究で開発したデータセットおよびコードは、以下のURLにてオープンソースとして公開されている：https://github.com/JoseponLee/IntentQA.git

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています