2달 전

Transformer를 이용한 암시적 공간 캘리브레이션을 통한 약한 감독 하의 객체 위치 결정

Haotian Bai; Ruimao Zhang; Jiong Wang; Xiang Wan
Transformer를 이용한 암시적 공간 캘리브레이션을 통한 약한 감독 하의 객체 위치 결정
초록

약한 감독 하의 객체 위치 추정(Weakly Supervised Object Localization, WSOL)은 이미지 레벨 라벨만을 사용하여 객체를 위치 추정하는 것을 목표로 하며, 실제 응용에서 낮은 주석 비용으로 인해 많은 관심을 받고 있습니다. 최근 연구에서는 시각적 트랜스포머에서 자기 주의(self-attention)의 장점을 활용하여 장거리 의존성을 재활성화하는 의미 영역을 재활성화하려고 노력하고 있으며, 이는 전통적인 클래스 활성화 매핑(Class Activation Mapping, CAM)에서 부분 활성화를 피하려는 목적입니다. 그러나 트랜스포머의 장거리 모델링은 객체의 고유한 공간 일관성을 무시하며, 일반적으로 객체 경계로부터 멀리 퍼져나가는 의미 인식 영역을 생성하여 위치 추정 결과가 크게 확대되거나 작아지는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 간단하면서도 효과적인 공간 교정 모듈(Spatial Calibration Module, SCM)을 소개합니다. 이 모듈은 패치 토큰들의 의미적 유사성과 그들의 공간 관계를 통합된 확산 모델에 통합합니다. 구체적으로, 우리는 학습 가능한 매개변수를 도입하여 의미 상관관계와 공간 맥락 강도를 동적으로 조정하여 효과적인 정보 전파를 실현합니다. 실제로 SCM은 트랜스포머의 외부 모듈로 설계되어 있으며, 추론 단계에서는 계산 비용을 줄이기 위해 제거할 수 있습니다. 객체에 민감한 위치 추정 능력은 훈련 단계에서 최적화를 통해 트랜스포머 인코더에 암시적으로 내장됩니다. 이를 통해 생성된 주의 맵은 더 선명한 객체 경계를 포착하고 객체와 관련 없는 배경 영역을 필터링할 수 있습니다. 광범위한 실험 결과는 제안된 방법의 효과성을 입증하며, CUB-200 및 ImageNet-1K 벤치마크에서 TS-CAM 대비 크게 우수한 성능을 보였습니다. 코드는 https://github.com/164140757/SCM 에서 제공됩니다.

Transformer를 이용한 암시적 공간 캘리브레이션을 통한 약한 감독 하의 객체 위치 결정 | 최신 연구 논문 | HyperAI초신경