2달 전
CounTR: Transformer 기반 일반화 시각적 카운팅
Liu, Chang ; Zhong, Yujie ; Zisserman, Andrew ; Xie, Weidi

초록
본 논문에서는 일반화된 시각 객체 카운팅 문제를 다루며, 임의의 의미 범주에서 객체의 수를 세는 계산 모델을 개발하는 것을 목표로 합니다. 이를 위해 "예시"(exemplars)를 사용하여 제로샷 또는 페어샷 카운팅을 수행합니다. 이에 대한 네 가지 기여사항은 다음과 같습니다: (1) 일반화된 시각 객체 카운팅을 위한 새로운 트랜스포머 기반 아키텍처인 Counting Transformer (CounTR)를 소개합니다. 이 모델은 주의 메커니즘을 통해 이미지 패치 간 또는 주어진 "예시"와의 유사성을 명시적으로 포착합니다; (2) 자기 감독 학습으로 사전 학습한 후 지도 학습으로 미세 조정하는 두 단계 학습 체제를 채택합니다; (3) 많은 인스턴스나 다른 의미 범주에서 합성 훈련 이미지를 생성하기 위한 간단하고 확장 가능한 파이프라인을 제안하며, 이는 모델이 주어진 "예시"를 활용하도록 명시적으로 강제합니다; (4) 대규모 카운팅 벤치마크(예: FSC-147)에서 철저한 아블레이션 연구를 수행하고, 제로샷 및 페어샷 설정 모두에서 최신 성능을 보여줍니다.