세부 시각 분류를 위한 맥락 인식 주의 집약(CAP)

심층 합성곱 신경망(CNN)은 이미지 인식을 위한 개체의 자세 및 부분 정보를 구분하는 데 있어 뛰어난 능력을 보여왔다. 미세한 등급 인식(fine-grained recognition)의 경우, 개체/장면에 대한 맥락 인지적 풍부한 특징 표현이 핵심적인 역할을 하며, 이는 동일한 하위 카테고리 내에서 큰 변동성을 보이고, 서로 다른 하위 카테고리 간에는 미세한 차이를 나타내기 때문이다. 동일한 개체/장면을 완전히 특성화하는 미세한 차이를 찾는 것은 간단하지 않다. 이를 해결하기 위해, 경계 박스 및/또는 구분 가능한 부분 레이블 없이도, 정보가 풍부한 정수 영역(integral regions)과 그들이 서로 다른 하위 카테고리를 구분하는 데 있어 갖는 중요성을 학습할 수 있도록, 하위 픽셀 그라디언트(sub-pixel gradients)를 활용하여 미세한 변화를 효과적으로 포착하는 새로운 맥락 인지적 주의 집합(attentional pooling, CAP)을 제안한다. 또한, 정수 영역의 정보성(informativeness)과 공간 구조 간의 내재적 일관성을 고려한 새로운 특징 인코딩 방식을 도입하여, 이러한 영역들 사이의 의미적 상관관계를 포착한다. 본 연구의 접근법은 간단하면서도 매우 효과적이며, 표준 분류 백본 네트워크 위에 쉽게 적용할 수 있다. 제안한 방법은 최첨단(SoTA) 백본 네트워크 6종과 벤치마크 데이터셋 8종을 이용하여 평가되었으며, 6개 데이터셋에서는 기존 최첨단 기법들을 상회하는 성능을 보였고, 나머지 2개 데이터셋에서도 매우 경쟁력 있는 성능을 기록하였다.