11일 전
비전 트랜스포머 오프더셔elf: 소수 샘플, 클래스 무관 카운팅을 위한 놀라운 베이스라인
Zhicheng Wang, Liwen Xiao, Zhiguo Cao, Hao Lu

초록
클래스 무관 counting (CAC)는 소수의 예시 이미지가 주어졌을 때, 쿼리 이미지 내 관심 대상 객체의 수를 세는 것을 목표로 한다. 이 작업은 일반적으로 쿼리 이미지와 예시 이미지의 특징을 각각 추출한 후, 그 특징 간 유사도를 매칭하는 방식으로 수행되며, '추출-매칭'이라는 패러다임을 따르게 된다. 본 연구에서는 CAC를 '추출-매칭'의 형태로 단순화할 수 있음을 보여준다. 특히, 비전 트랜스포머(ViT)를 활용할 경우, 특징 추출과 유사도 매칭이 자기 주목(self-attention) 내에서 동시에 수행될 수 있다. 우리는 이러한 단순화의 근거를 자기 주목의 분리된 관점에서 해석한다. 이를 통해 도출된 모델인 CACViT는 CAC 처리 파이프라인을 단일 사전 훈련된 일반 ViT로 단순화한다. 또한, 일반 ViT에서 리사이징과 정규화 과정으로 인해 발생하는 척도 및 주문수준 정보의 손실을 보완하기 위해, 척도 및 크기 임베딩을 위한 두 가지 효과적인 전략을 제안한다. FSC147 및 CARPK 데이터셋에서 실시한 광범위한 실험 결과, CACViT는 기존 최고 성능의 CAC 접근법보다 효과성(오류 감소율 23.60%)과 일반화 능력 면에서 뚜렷한 우수성을 보이며, CAC에 대한 간결하면서도 강력한 베이스라인을 제공함을 시사한다. 코드는 공개될 예정이다.