2달 전

VLCounter: 텍스트 인식 시각적 표현을 이용한 제로샷 객체 카운팅

Kang, Seunggu ; Moon, WonJun ; Kim, Euiyeon ; Heo, Jae-Pil
VLCounter: 텍스트 인식 시각적 표현을 이용한 제로샷 객체 카운팅
초록

Zero-Shot Object Counting (ZSOC)은 사람이 주석한 샘플 없이 쿼리 이미지에서 임의의 클래스 인스턴스를 세는 것을 목표로 합니다. 이에 대한 기존 연구들은 두 단계 파이프라인을 제안하였습니다: 샘플 발견과 카운팅. 그러나 순차적으로 설계된 이 두 단계 과정은 오류 전파에 취약하다는 문제점이 여전히 남아 있습니다. 본 연구에서는 CLIP의 의미 패치 임베딩 간의 암시적인 연관성을 탐색하는 일단계 베이스라인, Visual-Language Baseline (VLBase)을 제안합니다. 그 다음으로, VLBase를 객체 카운팅에 맞춤화하기 위해 세 가지 모듈을 통합하여 Visual-language Counter (VLCounter)로 확장하였습니다. 첫째, 이미지 인코더 내에서 대상 강조 표현을 얻기 위해 Semantic-conditioned Prompt Tuning (SPT)가 도입되었습니다. 둘째, Learnable Affine Transformation (LAT)을 사용하여 의미 패치 유사도 맵을 카운팅 작업에 적합하도록 변환하였습니다. 마지막으로, Segment-aware Skip Connection (SaSC)을 통해 계층별로 인코딩된 특징들을 디코더로 전송하여 미처 보지 못한 클래스에 대한 일반화 능력을 유지하였습니다. FSC147, CARPK, 그리고 PUCPR+ 데이터셋에서 수행된 광범위한 실험을 통해 end-to-end 프레임워크인 VLCounter의 장점이 입증되었습니다.

VLCounter: 텍스트 인식 시각적 표현을 이용한 제로샷 객체 카운팅 | 최신 연구 논문 | HyperAI초신경