3ヶ月前

概要

カモフラージュ物体検出（Camouflaged Object Detection）は、色やテクスチャ、サイズの類似性が高いために周囲の環境に完全に溶け込んだ物体を識別し、セグメンテーションを行う必要のある、近年注目されている難易度の高いコンピュータビジョンタスクです。本タスクは、低照度環境、部分的なオクルージョン、物体の小ささ、複雑な背景パターン、そして複数物体の存在といった要因により、さらに困難なものとなっています。これまでに多くの高度な手法が提案されてきましたが、既存の手法は依然として複雑なシナリオ、特に微小な物体や複数の物体が存在する場合におけるカモフラージュ物体の正確な検出に課題を残しており、改善の余地があります。本稿では、Pyramid Vision Transformerバックボーンを用いてマルチスケール特徴を抽出し、専用の「アテンションに基づくスケール統合ユニット（Attention-Based Scale Integration Units）」を介してこれらを統合することで、選択的な特徴の融合を可能にする「マルチスケール再帰的ネットワーク（Multi-Scale Recursive Network：MSRNet）」を提案します。より高精度な物体検出を実現するため、我々のデコーダーは「多粒度融合ユニット（Multi-Granularity Fusion Units）」を導入し、特徴を再帰的に精緻化します。また、新たな再帰的フィードバックデコード戦略を開発することで、大域的なコンテキスト理解を強化し、本タスクにおける課題の克服を支援します。マルチスケール学習と再帰的な特徴最適化を組み合わせて活用することで、提案手法は性能向上を達成し、微小かつ多数のカモフラージュ物体の検出に成功しました。本モデルは、カモフラージュ物体検出に関する2つのベンチマークデータセットにおいて最先端（SOTA）の結果を達成し、残る2つのデータセットにおいても第2位の性能を記録しました。コード、モデルの重み、および実験結果は、href{https://github.com/linaagh98/MSRNet}{https://github.com/linaagh98/MSRNet}にて公開されています。

ソースPDF