
대부분의 기존 주요 객체 검출 방법은 U-Net 또는 피라미드 구조를 사용하여 서로 다른 크기의 특징 맵을 단순히 집계하는데 중점을 두고 있어, 이들의 독특성과 상호 의존성 및 최종 예측에 대한 개별 기여도를 무시하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 M$^3$Net, 즉 다중 수준, 혼합, 다단계 주의 네트워크(Multilevel, Mixed and Multistage attention network for Salient Object Detection (SOD))를 제안합니다. 첫째, 우리는 다양한 수준의 특징 간의 상호 작용을 달성하기 위해 교차 주의 메커니즘을 혁신적으로 도입한 다중 스케일 상호 작용 블록(Multiscale Interaction Block)을 제안합니다. 이 블록은 고수준 특징이 저수준 특징 학습을 안내하도록 하여 주요 영역을 강화하는 역할을 합니다. 둘째, 이전 트랜스포머 기반 SOD 방법들이 전역 자기 주의(global self-attention)만을 사용하여 복잡한 객체의 세부 정보를 필연적으로 간과한다는 점을 고려하여, 혼합 주의 블록(Mixed Attention Block)을 제안합니다. 이 블록은 전역 자기 주의와 윈도우 자기 주의(window self-attention)를 결합하여 전역 및 국소 수준에서 문맥 모델링(context modeling)을 수행함으로써 예측 맵의 정확성을 더욱 향상시키는 것을 목표로 합니다. 마지막으로, 우리는 단계별로 집계된 특징을 최적화하기 위한 다중 수준 감독 전략(multilevel supervision strategy)을 제안하였습니다. 여섯 개의 어려운 데이터셋에서 수행된 실험 결과는 제안된 M$^3$Net이 최근 CNN 및 트랜스포머 기반 SOD 기술들보다 네 가지 평가 지표에서 우수함을 입증하였습니다. 코드는 https://github.com/I2-Multimedia-Lab/M3Net에서 확인할 수 있습니다.