2ヶ月前

動画におけるカモフラージュされた物体検出のための暗黙の運動処理

Cheng, Xuelian ; Xiong, Huan ; Fan, Deng-Ping ; Zhong, Yiran ; Harandi, Mehrtash ; Drummond, Tom ; Ge, Zongyuan
動画におけるカモフラージュされた物体検出のための暗黙の運動処理
要約

我々は、ビデオフレームから擬態物体を検出するための新しいビデオ擬態物体検出(VCOD)フレームワークを提案します。このフレームワークは、短期的な動態と長期的な時間的一貫性の両方を活用することができます。擬態物体の重要な特性は、背景と類似したパターンを持つことが多いため、静止画では識別が困難であることです。したがって、ビデオにおける時間的動態を効果的に処理することがVCODタスクの鍵となります。なぜなら、擬態物体が動き出すと目立つからです。しかし、現在のVCOD手法は多くの場合、ホモグラフィや光学フローを使用して運動を表現しており、運動推定誤差とセグメンテーション誤差の両方から検出誤差が蓄積する可能性があります。一方で、我々の方法は運動推定と物体セグメンテーションを単一の最適化フレームワーク内に統合しています。具体的には、隣接するフレーム間の運動を暗黙的に捉えるための濃密な相関体積を作成し、最終的なセグメンテーション監督を使用して運動推定とセグメンテーションを共同で最適化します。さらに、ビデオシーケンス内で時間的一貫性を強制するために、空間時間トランスフォーマーを共同で利用して短期予測を洗練します。VCODベンチマークでの広範な実験により、当アプローチのアーキテクチャ的有效性が示されています。また、ピクセルレベルで手作業で生成された真値マスクを持つ大規模なVCODデータセット「MoCA-Mask」を提供し、既存手法との包括的なVCODベンチマークも構築することで、この分野での研究促進に貢献しています。データセットリンク: https://xueliancheng.github.io/SLT-Net-project.

動画におけるカモフラージュされた物体検出のための暗黙の運動処理 | 最新論文 | HyperAI超神経