18日前

DiffusionVID:時空間的な条件付き手法を用いた動画オブジェクト検出におけるノイズ除去オブジェクトボックス

{Ki-Seok Chung, Si-Dong Roh}
要約

既存の静止画オブジェクト検出器の多くは、動画における画像劣化、例えば運動ブラー、カメラのボケ、部分的遮蔽といった問題に苦しんでいます。本研究では、空間時間的条件付けを活用する拡散モデルベースの動画オブジェクト検出器「DiffusionVID」を提案します。拡散モデルのアイデアに着想を得て、DiffusionVIDはランダムなノイズボックスを段階的に修正することで、動画シーケンス内の元のオブジェクトボックスを再構成します。動画内の劣化画像からボックスを効果的に復元するため、本研究では3つの新規アプローチを導入しました。すなわち、カスケードリファインメント、動的コアセット条件付け、およびローカルバッチリファインメントです。カスケードリファインメントアーキテクチャはオブジェクト領域からの情報を効果的に集約する一方で、動的コアセット条件付けは空間時間的コアセットに基づく適応的な条件付きガイドを使用してノイズ除去の品質をさらに向上させます。また、ローカルバッチリファインメントはGPUの並列処理を活用することで、リファインメントの速度を大幅に向上させます。標準的かつ広く用いられているImageNet-VIDベンチマークにおいて、ResNet-101およびSwin-Baseをバックボーンとして使用したDiffusionVIDは、それぞれ86.9 mAP @ 46.6 FPSおよび92.4 mAP @ 27.0 FPSを達成し、現在の最先端性能を示しました。筆者らの知る限り、本研究は拡散モデルに基づく初めての動画オブジェクト検出器です。コードおよびモデルは、https://github.com/sdroh1027/DiffusionVID にて公開されています。