7日前

動画質問応答のための学習状況ハイパーグラフ

Aisha Urooj Khan, Hilde Kuehne, Bo Wu, Kim Chheu, Walid Bousselham, Chuang Gan, Niels Lobo, Mubarak Shah
動画質問応答のための学習状況ハイパーグラフ
要約

動画における複雑な状況に関する質問に答えるには、登場人物や物体の存在、それらの関係を捉えるだけでなく、これらの関係が時間経過とともにどのように変化するかを理解する必要がある。状況ハイパーグラフ(situation hyper-graph)は、動画フレームごとのシーン部分グラフとして状況を表現し、連結された部分グラフ間をハイパーエッジで結ぶことで、このような情報をコンパクトかつ構造化された形で記述するための手法として提案されている。本研究では、状況ハイパーグラフを予測することにより動画コンテンツに関連する質問に答えることを可能にする、ビデオ質問応答(Video Question Answering: VQA)のアーキテクチャを提案し、これを「状況ハイパーグラフベースのビデオ質問応答(Situation Hyper-Graph based Video Question Answering: SHG-VQA)」と命名する。本手法では、入力となる動画クリップから、行動および物体/人間-物体間の関係を含むグラフ表現を暗黙的に識別するための状況ハイパーグラフデコーダーを学習する。さらに、予測された状況ハイパーグラフと質問の埋め込み表現の間でクロスアテンションを用いることで、正しい回答を予測する。提案手法はエンドツーエンドで学習され、VQA損失(クロスエントロピー関数による)と、状況グラフ予測に対するハンガリアンマッチング損失を用いて最適化される。本アーキテクチャの有効性は、2つの挑戦的ベンチマークであるAGQAおよびSTARにおいて広範に検証された。実験結果から、潜在的な状況ハイパーグラフを学習することが、ビデオ質問応答タスクにおける新たな課題に対して、システムの性能を顕著に向上させることに寄与することが示された。

動画質問応答のための学習状況ハイパーグラフ | 最新論文 | HyperAI超神経