2달 전

OmniCount: 의미-기하적 사전지식을 활용한 다중 라벨 객체 카운팅

Anindya Mondal; Sauradip Nag; Xiatian Zhu; Anjan Dutta
OmniCount: 의미-기하적 사전지식을 활용한 다중 라벨 객체 카운팅
초록

물체 수 세기는 장면의 구성을 이해하는 데 핵심적인 역할을 합니다. 과거에는 이 작업이 주로 클래스별 방법에 의해 지배되었으나, 점차 더 유연한 클래스 무관 전략으로 발전해 왔습니다. 그러나 이러한 전략들은 여러 범주에 대한 수 세기를 위해 수작업 예제 입력과 다수의 통과가 필요하다는 등의 제약 조건을 가지고 있어, 효율성 면에서 큰 한계를 보입니다. 본 논문에서는 오픈 어휘 체계를 사용하여 여러 물체 범주를 동시에 세는 더 실용적인 접근 방식을 소개합니다. 우리의 솔루션인 OmniCount는 사전 훈련된 모델로부터 얻은 의미론적 및 기하학적 통찰(프라이어)을 활용하여 사용자가 지정한 여러 범주의 물체를 추가 훈련 없이 세는 데 돋보입니다. OmniCount는 정확한 물체 마스크 생성과 Segment Anything Model을 통해 다양한 상호 작용 프롬프트를 활용하여 효율적인 수 세기를 가능하게 합니다. OmniCount의 성능을 평가하기 위해, 우리는 포인트, 바운딩 박스, VQA 주석 등을 포함하는 다중 라벨 물체 수 세기 데이터셋인 OmniCount-191 벤치마크를 생성했습니다. OmniCount-191와 다른 선도적인 벤치마크에서 수행한 포괄적인 평가는 OmniCount가 기존 솔루션들을 크게 앞서는 우수한 성능을 보임을 입증합니다. 프로젝트 웹페이지는 https://mondalanindya.github.io/OmniCount에서 확인할 수 있습니다.