
Class Activation Map (CAM)는 이미지 수준의 레이블만을 사용하여 이미지 내 객체 영역을 국소화할 수 있다는 장점으로 인해, 약한 감독(semi-supervised) 세분화(WSSS) 분야에서 널리 사용되는 도구로 부상하였다. 그러나 기존의 CAM 방법들은 세부적인 감독 정보가 부족함으로 인해 타겟 객체 영역의 부족한 활성화와 배경 영역의 오류 활성화 문제를 겪고 있다. 이는 모델이 이미지를 전반적으로 이해하는 능력을 제한하기 때문이다. 본 논문에서는 비전-언어 기반 모델을 활용하여 이미지에 대한 텍스트 기반 이해를 극대화하고, 활성화 맵 생성을 안내하는 새로운 질문-답변 형식의 다국어-이미지 매칭 프레임워크인 QA-CLIMS(Question-Answer Cross-Language-Image Matching)를 제안한다. 먼저, 질문-답변 프롬프트 엔지니어링(QAPE)을 통해 VQA(시각 질문 응답) 모델에 정교하게 설계된 일련의 질문을 제시함으로써, 쿼리 이미지에 적합한 전경 객체 및 배경 영역의 코퍼스를 생성한다. 이후, 영역 기반 이미지-텍스트 대조 학습(RITC, Region Image Text Contrastive) 네트워크를 활용하여 얻어진 전경 및 배경 영역을 생성된 코퍼스와 비교한다. 본 방법은 개방형 어휘(open vocabulary)에서 제공하는 풍부한 텍스트 정보를 추가적인 감독 신호로 활용함으로써, 더 완전한 객체 영역을 포함하고 배경 영역의 오류 활성화를 줄이는 고품질의 CAM 생성을 가능하게 한다. 제안된 방법의 타당성을 검증하기 위해 광범위한 실험과 분석을 수행하였으며, PASCAL VOC 2012 및 MS COCO 데이터셋에서 기존 최고 수준의 성능을 달성함을 입증하였다. 코드는 다음 주소에서 공개되어 있다: https://github.com/CVI-SZU/QA-CLIMS