2ヶ月前

DenseImage Network: 動画の空間時間進化の符号化と理解

Xiaokai Chen; Ke Gao
DenseImage Network: 動画の空間時間進化の符号化と理解
要約

多くの主要なビデオ理解手法はデータを大量に必要とし、時間もかかるため、空間時間の進化の本質を効率的に捉えることができない。最新の研究では、CNNネットワークが画像内のエンティティ間の静的な関係を推論できることを示している。このネットワークの動的な進化推論能力をさらに活用するために、DenseImage Network (DIN) と呼ばれる新しいネットワークモジュールを提案する。本研究には主に以下の2つの貢献がある。1) ビデオの重要な空間時間進化を行列(DenseImage)に凝縮した新しいコンパクト表現を開発した。これにより効率的なビデオ符号化が可能となる。2) DenseImageと時系列順序を保つCNNネットワークに基づく、単純ながら強力な学習戦略を提案した。この戦略には、異なるフィルタ幅を使用して複数の時間スケールで時間的進化を捉える局所的な時間相関制約が含まれている。最近の2つの挑戦的なベンチマークでの広範な実験結果から、我々のDenseImage Networkは視覚的な変動や異なる時間スケール即使われても、類似する動作間の一般的な空間時間進化を正確に捉えることができることが示された。さらに、行動認識とジェスチャ認識において最先端の結果を得ることができ、その際には大幅に少ない時間とメモリコストで処理が完了した。これはビデオ表現と理解における大きな潜在力を示唆している。