2ヶ月前

イベントベースの解釈可能な推論を用いたVideoQA

Ayyubi, Hammad ; Liu, Junzhang ; Asgarov, Ali ; Hakim, Zaber Ibn Abdul ; Sarker, Najibul Haque ; Wang, Zhecan ; Tang, Chia-Wei ; Alomari, Hani ; Atabuzzaman, Md. ; Lin, Xudong ; Dyava, Naveen Reddy ; Chang, Shih-Fu ; Thomas, Chris

論文の詳細を見る

要約

本論文では、イベントグラフを基にした解釈可能なビデオ質問応答（VideoQA）システムであるENTERを紹介します。イベントグラフは、ビデオをグラフィカルな表現に変換し、ビデオのイベントがノードとなり、イベント間の関係（時間的/因果的/階層的）がエッジとなります。この構造化された表現は多くの利点をもたらします：1) イベントグラフを解析する生成コードを通じた解釈可能なVideoQA；2) イベントグラフを通じてコンテクスト的な視覚情報を取り入れた推論プロセス（コード生成）；3) イベントグラフの階層的な反復更新による堅牢なVideoQA。既存の解釈可能なVideoQAシステムはしばしばトップダウン型であり、推論計画生成において低レベルの視覚情報を無視しており、脆弱性があります。一方で、ボトムアップアプローチは視覚データから応答を生成しますが、解釈可能性に欠けています。NExT-QA、IntentQA、およびEgoSchemaにおける実験結果は、当手法が既存のトップダウンアプローチを上回りつつ、ボトムアップアプローチと競合する性能を得ているだけでなく、より重要なのは推論プロセスにおいて優れた解釈可能性と説明性を提供することを示しています。