포인트 세그먼트 및 카운팅: 객체 카운팅을 위한 일반화된 프레임워크

클래스 무관 객체 카운팅은 예시 박스나 클래스 이름에 따라 이미지 내 모든 객체를 세는 것을 목표로 하며, 이는 소수 샘플(few-shot) 및 제로 샘플(zero-shot) 카운팅으로도 알려져 있다. 본 논문에서는 탐지 기반의 일반화된 프레임워크를 제안하여 소수 샘플 및 제로 샘플 객체 카운팅 모두를 효과적으로 처리한다. 제안하는 프레임워크는 두 가지 기초 모델의 우수한 특징을 결합하면서도 제로 샘플 능력을 훼손하지 않도록 설계되었다: (i) SAM을 활용하여 가능한 모든 객체를 마스크 후보로 세그멘테이션하고, (ii) CLIP을 사용해 후보들을 분류함으로써 정확한 객체 수를 도출한다. 그러나 이 전략은 효율성 저하와 소형 밀집 객체의 국소화 및 구분이 어려운 문제에 직면한다. 이러한 문제를 해결하기 위해 본 연구는 '점-세그멘테이션-카운팅(Point-Segment-and-Count)'이라는 세 단계로 구성된 프레임워크 PseCo를 제안한다. 구체적으로, 먼저 클래스 무관 객체 국소화 기법을 도입하여 SAM에 정확하면서도 최소한의 포인트 프롬프트를 제공함으로써 계산 비용을 감소시키고, 소형 객체의 누락을 방지한다. 또한, 계층적 지식 전이(hierarchical knowledge distillation)를 활용하여 CLIP의 이미지/텍스트 임베딩을 분류기로 사용하는 일반화된 객체 분류 기법을 제안하여 계층적 마스크 후보 간의 구별력을 향상시킨다. FSC-147, COCO, LVIS 데이터셋에서 실시한 광범위한 실험 결과를 통해 PseCo가 소수 샘플/제로 샘플 객체 카운팅 및 탐지에서 최신 기술 수준(SOTA)의 성능을 달성함을 입증하였다.