2ヶ月前

ZoomNeXt: カモフラージュされた物体検出のための統一協調ピラミッドネットワーク

Pang, Youwei ; Zhao, Xiaoqi ; Xiang, Tian-Zhu ; Zhang, Lihe ; Lu, Huchuan
ZoomNeXt: カモフラージュされた物体検出のための統一協調ピラミッドネットワーク
要約

最近のカモフラージュされた物体検出(COD)は、周囲の環境に視覚的に溶け込んでいる物体をセグメンテーションすることを目指しており、これは現実的な状況では極めて複雑で困難な課題です。カモフラージュされた物体と背景との間には高い内在的な類似性があり、さらに物体は通常、スケールが多様で、外観がぼやけており、場合によっては著しく遮蔽されていることがあります。この問題に対処するため、我々は人間が不明瞭な画像や動画を見ることを模倣した効果的な統一協調ピラミッドネットワークを提案します。つまり、ズーム戦略を用いて、マルチヘッドスケール統合ユニットと豊富な粒度知覚ユニットにより判別可能な混合スケールの意味論を学習します。これらのユニットは、候補となる物体と背景環境の間に存在する微細な手がかりを十分に探索することを目的として設計されています。前者の内在的なマルチヘッド集約はより多様な視覚パターンを提供し、後者のルーティング機構は空間時間シナリオにおいてフレーム間の差異を効果的に伝播させることができ、静止表現に対して適応的に非活性化されゼロ結果を出力することができます。これらにより、静的および動的なCODのための統一アーキテクチャの実現に堅固な基盤が提供されます。さらに、区別不可能なテクスチャから派生する不確実性と曖昧性を考えると、我々は単純ながら効果的な正則化手法である不確実性認識損失を構築しました。これにより候補領域での予測に対する信頼度が向上します。我々のタスクに非常に適したフレームワークは、画像および動画CODベンチマークにおいて既存の最先端手法よりも一貫して優れた性能を発揮しています。コードは{https://github.com/lartpang/ZoomNeXt}で公開されています。