
要約
動画における交通イベントの認知と推論は、スマート交通システム、運転支援、自律走行車など多岐にわたる分野で重要な課題である。本論文では、10,080本のリアルワールド動画を収集し、62,535組のQA(質問・回答)ペアをアノテーションした新たなデータセット「SUTD-TrafficQA(Traffic Question Answering)」を構築した。このデータセットは、複雑な交通状況における因果推論およびイベント理解モデルの認知能力を評価するためのベンチマークとして設計されている。具体的には、さまざまな交通状況に対応する6つの挑戦的な推論タスクを提案することで、実用的かつ複雑な交通イベントに対する推論能力を多角的に評価することを目的としている。さらに、動的推論を活用した効率的なグリムプ(注目領域)ネットワーク「Eclipse」を提案し、計算効率と信頼性の両立を実現する動画推論を実現した。実験の結果、本手法は計算コストを大幅に削減しつつ、優れた性能を達成することが示された。プロジェクトページ:https://github.com/SUTDCV/SUTD-TrafficQA