9日前

IntentQA:文脈認識型動画意図推論

{Lifeng Fan, Wenjuan Han, Ping Wei, Jiapeng Li}
IntentQA:文脈認識型動画意図推論
要約

本稿では、日常的なタスクにおけるAIエージェントが単なる認識を超えた推論能力を備えるために重要な役割を果たす、動画の意図を推論するという新たなタスク「IntentQA」を提案する。このタスクは、AIの進化に伴い、ますます重要な位置を占めるようになっている。また、本タスクを対象とした大規模なVideoQAデータセットを提供する。さらに、i) 情報状況のコンテキストをより効果的に多モーダル表現するための「Video Query Language(VQL)」、ii) 対照的なコンテキストを活用するための「コントラスト学習モジュール」、iii) 一般常識的なコンテキストを統合するための「一般常識推論モジュール」から構成される、コンテキストに配慮した動画意図推論モデル(CaVIR)を提案する。この困難なタスクに対する包括的な実験により、モデル各構成要素の有効性、当該モデル全体の他のベースラインに対する優位性、および新たなVideoQAタスクへの汎化能力が確認された。本研究で開発したデータセットおよびコードは、以下のURLにてオープンソースとして公開されている:https://github.com/JoseponLee/IntentQA.git

IntentQA:文脈認識型動画意図推論 | 最新論文 | HyperAI超神経