요약 및 검색: 공통 주목도 검출을 위한 합의 인식 동적 컨볼루션 학습

인간은 공통 주의 영역 검출을 수행할 때 먼저 전체 그룹에서 합의된 지식을 요약하고, 그 다음 각 이미지에서 해당 객체를 찾는다. 기존 방법들은 일반적으로 첫 번째 과정에서 견고성, 확장성 또는 안정성을 충족하지 못하며, 두 번째 과정에서는 단순히 합의된 특징과 이미지 특징을 융합한다. 본 논문에서는 "요약 및 탐색" 과정을 명시적이고 효과적으로 수행하기 위한 새로운 합의 인식 동적 컨볼루션 모델을 제안한다. 합의된 이미지 특징을 요약하기 위해 먼저 효과적인 풀링 방법을 사용하여 각각의 이미지에 대한 견고한 특징을 요약하고, 이후 자기 주의 메커니즘(self-attention mechanism)을 통해 이미지 간 합의 신호를 집계한다. 이를 통해 우리의 모델은 확장성과 안정성 요구사항을 충족한다. 다음으로, 요약된 합의 지식을 부호화하기 위해 합의된 특징에서 동적 커널(dynamic kernels)을 생성한다. 세부적인 이미지별 합의 객체 신호와 대략적인 그룹 전체 공통 지식을 각각 요약하기 위해 보완적으로 두 가지 유형의 커널이 생성된다. 그런 다음, 다중 스케일에서 동적 컨볼루션(dynamic convolution)을 사용하여 객체 탐색을 효과적으로 수행할 수 있다. 또한, 네트워크를 훈련시키기 위한 새로운 그리고 효과적인 데이터 합성 방법도 제안되었다. 네 개의 벤치마크 데이터셋에 대한 실험 결과가 제안된 방법의 유효성을 확인해주며, 우리의 코드와 주목도 맵(saliency maps)은 \url{https://github.com/nnizhang/CADC}에서 제공된다.