2달 전
확대 및 축소: 위장 객체 검출을 위한 다중 스케일 트리플렛 네트워크
Pang, Youwei ; Zhao, Xiaoqi ; Xiang, Tian-Zhu ; Zhang, Lihe ; Lu, Huchuan

초록
최근 제안된 위장 객체 검출(COD)은 실제 환경에서 시각적으로 배경과 혼합된 객체를 분할하는 것을 목표로 하며, 이는 매우 복잡하고 어렵습니다. 위장 객체와 배경 간의 높은 내재적 유사성뿐만 아니라, 객체들은 일반적으로 크기 면에서 다양하며, 모호한 외관을 가지고 있으며 심지어 심하게 가려져 있을 수도 있습니다. 이러한 문제들을 해결하기 위해, 우리는 인간이 모호한 이미지를 관찰할 때의 행동, 즉 확대 및 축소를 모방하는 \textbf{ZoomNet}이라는 다중 스케일 트리플릿 네트워크를 제안합니다. 구체적으로, 우리의 ZoomNet은 설계된 스케일 통합 유닛과 계층적 다중 스케일 유닛을 통해 차별화된 다중 스케일 의미를 학습하는 확대 전략을 사용하여 후보 객체와 배경 사이의 미세한 단서들을 충분히 탐색합니다.또한, 구분할 수 없는 질감으로 인해 발생하는 불확실성과 모호성을 고려하여, 우리는 간단하면서도 효과적인 정규화 제약 조건인 불확실성 인식 손실(uncertainty-aware loss)을 구성하여 모델이 후보 영역에서 더 높은 신뢰도로 정확한 예측을 생성하도록 촉진합니다. 특별한 장치 없이도, 우리 제안 모델은 네 개의 공개 데이터셋에서 기존 23개 최신 방법들을 일관되게 능가합니다. 또한, SOD 작업에서 최근 최첨단 모델들보다 우수한 성능은 우리 모델의 효과성과 일반성을 입증합니다. 코드는 \url{https://github.com/lartpang/ZoomNet}에서 제공될 예정입니다.