
객체 탐지에서 고해상도 입력에 대한 특징 맵 해상도와 수용 필드 사이의 모순적인 요구 사항을 어떻게 해결할 것인지 여전히 미해결 과제로 남아 있다. 본 논문에서는 이러한 문제를 해결하기 위해, 다양한 큰 수용 필드로부터 구분 가능한 정보를 주도적인 주의 기반의 다중 경로 특징을 통합함으로써 활용하는 새로운 아키텍처인 주의 유도형 컨텍스트 특징 피라미드 네트워크(Attention-guided Context Feature Pyramid Network, AC-FPN)를 제안한다. 본 모델은 두 가지 모듈로 구성된다. 첫 번째는 다수의 수용 필드로부터 큰 맥락 정보를 탐색하는 컨텍스트 추출 모듈(Context Extraction Module, CEM)이며, 두 번째는 주의 메커니즘을 활용해 객체 위의 주목할 만한 의존 관계를 적응적으로 캡처하는 주의 유도 모듈(Attention-guided Module, AM)이다. 중복된 맥락적 관계는 탐지 및 인식을 오도할 수 있으므로, AM은 주의 기반의 선택적 정보 추출을 통해 이러한 문제를 완화한다. AM은 각각 구분 가능한 의미 정보를 추출하는 데 집중하는 컨텍스트 주의 모듈(Context Attention Module, CxAM)과 정확한 위치를 식별하는 데 초점을 맞춘 콘텐츠 주의 모듈(Content Attention Module, CnAM)으로 구성된다. 특히 중요한 점은, 본 AC-FPN 아키텍처가 기존 FPN 기반 모델에 쉽게 통합 가능하다는 것이다. 객체 탐지 및 인스턴스 세그멘테이션에 대한 광범위한 실험 결과는, 제안한 CEM과 AM을 도입한 기존 모델이 이를 적용하지 않은 대조 모델보다 유의미하게 성능이 우수하며, 본 모델이 최신 기술 수준(SOTA)의 성능을 성공적으로 달성함을 보여준다. 소스 코드는 https://github.com/Caojunxu/AC-FPN 에 공개하였다.