Command Palette
Search for a command to run...
イベントベースの解釈可能な推論を用いたVideoQA
イベントベースの解釈可能な推論を用いたVideoQA
Hammad Ayyubi* ♦ Junzhang Liu* ♦ Ali Asgarov† Zaber Hakim† Najibul Sarker† Zhecan Wang♦ Chia-Wei Tang† Hani Alomari† Md. Atabuzzaman† Xudong Lin♦ Naveen Reddy Dyava♦ Shih-Fu Chang♦ Chris Thomas†
概要
本論文では、イベントグラフを基にした解釈可能なビデオ質問応答(VideoQA)システムであるENTERを紹介します。イベントグラフは、ビデオをグラフィカルな表現に変換し、ビデオのイベントがノードとなり、イベント間の関係(時間的/因果的/階層的)がエッジとなります。この構造化された表現は多くの利点をもたらします:1) イベントグラフを解析する生成コードを通じた解釈可能なVideoQA;2) イベントグラフを通じてコンテクスト的な視覚情報を取り入れた推論プロセス(コード生成);3) イベントグラフの階層的な反復更新による堅牢なVideoQA。既存の解釈可能なVideoQAシステムはしばしばトップダウン型であり、推論計画生成において低レベルの視覚情報を無視しており、脆弱性があります。一方で、ボトムアップアプローチは視覚データから応答を生成しますが、解釈可能性に欠けています。NExT-QA、IntentQA、およびEgoSchemaにおける実験結果は、当手法が既存のトップダウンアプローチを上回りつつ、ボトムアップアプローチと競合する性能を得ているだけでなく、より重要なのは推論プロセスにおいて優れた解釈可能性と説明性を提供することを示しています。