17日前

監視映像におけるイベント認識のための階層的コンテキストモデル

{Qiang Ji, Xiaoyang Wang}
監視映像におけるイベント認識のための階層的コンテキストモデル
要約

監視映像における正確かつ堅牢なイベント認識において、著しいクラス内変動や低解像度画像といった大きな課題があるため、コンテキスト情報の重要性はますます高まっている。コンテキスト情報は一般的に、特徴レベルのコンテキスト、意味レベルのコンテキスト、事前知識レベルのコンテキストの3つに分類される。これら3つのレベルのコンテキストは、それぞれ下位から上位への情報フロー(ボトムアップ)、中間レベルの情報、上位からの情報(トップダウン)を提供し、認識タスクそのものに有益な役割を果たす。既存の研究では、通常、これらの3つのレベルのうちいずれか1つのレベルでのコンテキスト情報の統合にとどまっているが、本研究では、3つのレベルのコンテキストを同時に活用し、体系的にイベント認識に統合する階層的コンテキストモデルを提案する。モデルの階層構造に伴う学習および推論の課題に対処するため、変分ベイズ法に基づいて、提案する階層的コンテキストモデル用の包括的な学習および推論アルゴリズムを開発した。VIRAT 1.0および2.0 Ground Datasetを用いた実験により、大規模なクラス内変動や低解像度といった厳しい条件下でも、提案モデルがイベント認識性能を向上させることの有効性が実証された。