2ヶ月前

アイデンティティ一貫性アグリゲーションによるビデオオブジェクト検出

Chaorui Deng; Da Chen; Qi Wu

要約

ビデオオブジェクト検出（VID）において、一般的な手法として、ビデオから得られる豊富な時空間文脈を活用して各フレームのオブジェクト表現を強化することがあります。既存の方法では、異なるオブジェクトから得られる時空間文脈を区別せずに扱い、それらの異なるアイデンティティを無視しています。直感的には、同じオブジェクトの異なるフレームでの局所的なビューを集約することで、より良いオブジェクト理解が促進される可能性があります。したがって、本論文ではモデルに各オブジェクトのアイデンティティ一貫性のある時空間文脈に焦点を当てる機能を付与し、より包括的なオブジェクト表現を得るとともに、物体の急激な外観変化（遮蔽、モーションブラーなど）に対処することを目指します。しかし、既存のVIDモデル上でこの目標を達成することは、冗長な領域提案と非並列的なフレームごとの予測方式により低効率となる問題があります。これを解決するために、我々はClipVIDというVIDモデルを提案します。このモデルには、微細でアイデンティティ一貫性のある時空間文脈を抽出するためのIdentity-Consistent Aggregation (ICA) レイヤーが特別に設計されています。セット予測戦略を通じて冗長性を効果的に削減し、ICAレイヤーを非常に効率的に動作させることで、さらに全体のビデオクリップに対する並列的なクリップ単位での予測を行うアーキテクチャ設計が可能となります。広範な実験結果は我々の手法の優越性を示しており、ImageNet VIDデータセットにおいて最先端（SOTA）性能（84.7% mAP）を達成しながら、以前のSOTAよりも約7倍速い（39.3 fps）速度で動作します。