2ヶ月前

ECO: オンライン動画理解のための効率的な畳み込みネットワーク

Mohammadreza Zolfaghari; Kamaljeet Singh; Thomas Brox
ECO: オンライン動画理解のための効率的な畳み込みネットワーク
要約

ビデオ理解の最先端技術は、以下の2つの問題に直面しています:(1) ビデオ内の推論の大部分が局所的に行われているため、数秒にわたる行動間の重要な関係を見逃しています。(2) 局所的な手法ではフレームごとの処理が高速ですが、全体のビデオ処理は効率的ではなく、高速なビデオ検索や長期活動のオンライン分類を妨げています。本論文では、長期的内容を取り入れつつ、同時にビデオ全体の高速処理を可能にするネットワークアーキテクチャを提案します。このアーキテクチャは、事後融合ではなく、ネットワーク内で長期的内容を統合することに基づいています。近接するフレームが大部分冗長であるという特性を利用したサンプリング戦略と組み合わせることで、最高230ビデオ/秒(各ビデオは数百フレームから構成される)での高品質な行動分類とビデオキャプショニングが実現できます。本手法はすべてのデータセットにおいて競争力のある性能を達成しつつ、最先端手法よりも10倍から80倍速い処理速度を実現しています。