11일 전
SAVE: 시각적 임베딩에 대한 자기주의적 어텐션을 통한 제로샷 일반 객체 수량 추정
{Nizar Bouguila, Wassim Bouachir, Ahmed Zgaren}
초록
제로샷 카운팅은 일반화된 시각적 객체 카운팅(Generic Visual Object Counting)의 하위 분야로, 주어진 이미지에서 임의의 클래스 객체를 세는 것을 목표로 한다. 소수샷 카운팅은 유사한 클래스 객체를 세기 위해 모델에 예시(exemplars)를 제공하는 반면, 제로샷 카운팅은 더 빠른 처리를 위해 이 과정을 자동화한다. 본 논문은 제로샷 및 소수샷 방법을 모두 능가하는 완전 자동화된 제로샷 방법을 제안한다. 사전 훈련된 탐지 기반 백본의 특징 맵을 활용하여, 객체의 맥락 정보 내에서 의미적 임베딩을 생성하도록 설계된 새로운 시각적 임베딩 모듈(Visual Embedding Module)을 도입한다. 이러한 임베딩은 자가 주의 매칭 모듈(Self-Attention Matching Module)에 입력되어 헤드 카운터를 위한 인코딩 표현을 생성한다. 제안한 방법은 최근의 제로샷 접근법을 모두 능가하며, FSC147 데이터셋에서 평균 절대 오차(MAE) 8.89 및 평균 제곱근 오차(RMSE) 35.83의 최고 성능을 기록하였다. 또한, 소수샷 방법과 비교해도 경쟁력 있는 성능을 보이며, 나무 수 세기, 야생 동물 수 세기 등 다양한 산업 응용 분야에서 시각적 객체 카운팅 기술의 능력을 한층 발전시켰다.