ZoomNeXt: Camouflaged Object Detection을 위한 통합된 협업 피라미드 네트워크

최근의 위장 객체 검출(COD)은 실제 환경에서 매우 복잡하고 어려운 문제로, 시각적으로 배경과 혼합된 객체를 분할하는 것을 목표로 하고 있습니다. 위장 객체와 배경 간의 높은 본질적 유사성 외에도, 객체들은 일반적으로 크기 면에서 다양하며, 모호한 형태를 띠고 있으며, 심지어는 심각하게 가려져 있을 수도 있습니다. 이를 해결하기 위해, 우리는 인간이 모호한 이미지와 비디오를 관찰할 때 사용하는 방대한 확대 및 축소 전략을 모방한 효과적인 통합 협업 피라미드 네트워크를 제안합니다.구체적으로, 우리의 접근 방식은 다중 헤드 스케일 통합 및 풍부한 세밀도 인식 유닛을 통해 차별화된 혼합 스케일 의미론을 학습하는 확대 전략을 사용합니다. 이는 후보 객체와 배경 주변 사이의 미세한 단서들을 완전히 탐색하기 위해 설계되었습니다. 전자의 본질적 다중 헤드 집약은 더 다양한 시각 패턴을 제공합니다. 후자의 라우팅 메커니즘은 시공간 상황에서 프레임 간 차이를 효과적으로 전파할 수 있으며, 정적 표현에 대해서는 적응적으로 비활성화되어 모든 출력이 0인 결과를 생성할 수 있습니다. 이들 구성 요소는 정적 및 동적 COD에 대한 통합 아키텍처 구현의 견고한 기반을 제공합니다.또한, 구분되지 않는 질감으로부터 발생하는 불확실성과 애매모호성을 고려하여, 우리는 간단하면서도 효과적인 규제 방법인 불확실성 인식 손실(Uncertainty Awareness Loss)을 구축하였습니다. 이 방법은 후보 영역에서 더 높은 신뢰도를 갖는 예측을 촉진합니다. 우리의 과제 친화적인 프레임워크는 이미지 및 비디오 COD 벤치마크에서 기존 최신 방법들을 일관되게 능가하고 있습니다. 우리의 코드는 {https://github.com/lartpang/ZoomNeXt}에서 확인할 수 있습니다.