Command Palette

Search for a command to run...

4ヶ月前

DiffusionVID:時空間的な条件付き手法を用いた動画オブジェクト検出におけるノイズ除去オブジェクトボックス

{Ki-Seok Chung Si-Dong Roh}

要約

既存の静止画オブジェクト検出器の多くは、動画における画像劣化、例えば運動ブラー、カメラのボケ、部分的遮蔽といった問題に苦しんでいます。本研究では、空間時間的条件付けを活用する拡散モデルベースの動画オブジェクト検出器「DiffusionVID」を提案します。拡散モデルのアイデアに着想を得て、DiffusionVIDはランダムなノイズボックスを段階的に修正することで、動画シーケンス内の元のオブジェクトボックスを再構成します。動画内の劣化画像からボックスを効果的に復元するため、本研究では3つの新規アプローチを導入しました。すなわち、カスケードリファインメント、動的コアセット条件付け、およびローカルバッチリファインメントです。カスケードリファインメントアーキテクチャはオブジェクト領域からの情報を効果的に集約する一方で、動的コアセット条件付けは空間時間的コアセットに基づく適応的な条件付きガイドを使用してノイズ除去の品質をさらに向上させます。また、ローカルバッチリファインメントはGPUの並列処理を活用することで、リファインメントの速度を大幅に向上させます。標準的かつ広く用いられているImageNet-VIDベンチマークにおいて、ResNet-101およびSwin-Baseをバックボーンとして使用したDiffusionVIDは、それぞれ86.9 mAP @ 46.6 FPSおよび92.4 mAP @ 27.0 FPSを達成し、現在の最先端性能を示しました。筆者らの知る限り、本研究は拡散モデルに基づく初めての動画オブジェクト検出器です。コードおよびモデルは、https://github.com/sdroh1027/DiffusionVID にて公開されています。

ベンチマーク

ベンチマーク方法論指標
video-object-detection-on-imagenet-vidDiffusionVID (ResNet-101)
MAP : 87.1
video-object-detection-on-imagenet-vidDiffusionVID (Swin-B)
MAP : 92.5

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています