
초록
본 논문은 이미지에서 객체 수 세기 문제를 다룹니다. 기존 접근 방식은 각 객체에 대한 점 주석이 포함된 방대한 훈련 데이터에 의존하여, 데이터 수집이 노동 집약적이고 시간 소모적이었습니다. 이를 해결하기 위해, 우리는 세그멘테이션 문제로 수 세기 작업을 취급하는 훈련이 필요 없는 객체 수 세기 방법을 제안합니다. 우리의 접근 방식은 고품질 마스크와 제로샷 세그멘테이션 능력으로 알려진 Segment Anything Model (SAM)을 활용합니다. 그러나 SAM의 기본 마스크 생성 방법은 클래스별 정보가 부족하여 수 세기 정확도가 떨어집니다. 이 한계를 극복하기 위해, 우리는 세 가지 유형의 사전 지식을 세그멘테이션 과정에 통합하는 사전 지도 마스크 생성 방법을 소개합니다. 이는 효율성과 정확성을 향상시킵니다. 또한, 우리는 텍스트를 통해 지정된 객체의 수를 셀 때 발생하는 문제를 해결하기 위해 참조 객체 선택과 사전 지도 마스크 생성을 결합한 두 단계 접근 방식을 제안합니다. 표준 데이터셋에서 수행된 광범위한 실험들은 우리의 훈련이 필요 없는 수 세기 방법이 학습 기반 접근 방식과 비교해 경쟁력을 갖는 성능을 보임을 입증하였습니다. 본 논문은 방대한 데이터 수집과 객체 수 세기에 특화된 훈련 없이 다양한 상황에서 객체를 셀 수 있는 유망한 솔루션을 제시합니다. 코드는 \url{https://github.com/shizenglin/training-free-object-counter}에서 제공됩니다.