F-CAM: 지도형 파라미터 업스케일링을 통한 전체 해상도 클래스 활성화 맵

최근 클래스 활성화 맵(Class Activation Mapping, CAM) 기법은 약한 지도 학습을 통한 개체 위치 추정(Weakly-Supervised Object Localization, WSOL) 과제에서 큰 주목을 받고 있다. 이러한 기법들은 이미지 전체에 대한 완전한 레이블 데이터셋을 학습하지 않고도 CNN의 시각화 및 해석을 가능하게 한다. 일반적으로 CAM 기법은 ResNet50과 같은 사전 학습된 CNN 백본과 통합되어 사용된다. 그러나 컨볼루션 및 풀링 연산으로 인해 이러한 백본은 최대 32배의 축소 비율을 가지며, 이로 인해 해상도가 낮은 CAM 결과를 생성하게 되어 정확한 위치 추정이 어려워진다. 원본 크기로 복원하기 위해 보간(Interpolation)이 필요하지만, 이는 객체의 통계적 특성(예: 색상, 질감)을 고려하지 않아 경계가 일관되지 않거나 정확도가 낮은 활성화 결과를 초래한다.본 연구에서는 이러한 문제를 해결하기 위해, CAM의 매개변수 기반 상향 변환(Parametric Upscaling)을 위한 일반적인 방법을 제안한다. 이를 통해 정확한 전체 해상도 CAM(Full-resolution CAM, F-CAM)을 생성할 수 있다. 특히, 어떤 CNN 분류기와도 연결 가능한 학습 가능한 디코딩 아키텍처를 제안한다. 주어진 낮은 해상도 CAM을 기반으로, 전경 및 배경 픽셀을 무작위로 샘플링하여 디코더를 세밀하게 조정한다. 또한 이미지 통계 및 객체 크기 제약 등의 사전 지식을 추가로 고려함으로써 객체 경계를 확장하고 정교화할 수 있다. CUB-200-2011 및 OpenImages 데이터셋에서 세 가지 CNN 백본과 여섯 가지 WSOL 기반 모델에 대한 광범위한 실험 결과에 따르면, 제안하는 F-CAM 방법은 CAM의 위치 추정 정확도에서 두드러진 개선을 보였다. F-CAM의 성능은 최신 WSOL 기법과 경쟁 가능하지만, 추론 과정에서 필요한 계산량이 적어 효율성이 뛰어나다.