2달 전
크라우드-SAM: 혼잡한 장면에서 객체 검출을 위한 지능형 주석 생성기로서의 SAM
Cai, Zhi ; Gao, Yingjie ; Zheng, Yaoyan ; Zhou, Nan ; Huang, Di

초록
컴퓨터 비전에서 객체 검출은 다양한 시나리오에 적용되는 중요한 작업입니다. 그러나 특히 혼잡한 장면에서는 광범위한 라벨을 얻는 것이 어려울 수 있습니다. 최근에는 Segment Anything Model (SAM)이 강력한 제로샷 세그멘테이션 모델로 제안되어 인스턴스 세그멘테이션 작업에 새로운 접근 방식을 제공하고 있습니다. 그러나 SAM과 그 변형 모델들은 혼잡하고 가려진 장면의 객체를 처리할 때 정확성과 효율성이 종종 저해됩니다. 본 논문에서는 이러한 문제를 해결하기 위해 소수의 학습 가능한 매개변수와 최소한의 라벨된 이미지를 사용하여 SAM의 성능을 향상시키는 SAM 기반 프레임워크인 Crowd-SAM을 소개합니다. 우리는 효율적인 프롬프트 샘플러(Efficient Prompt Sampler, EPS)와 부분-전체 구분 네트워크(Part-Whole Discrimination Network, PWD-Net)를 도입하여 혼잡한 장면에서 마스크 선택과 정확성을 개선하였습니다. 단순함에도 불구하고, Crowd-SAM은 CrowdHuman 및 CityPersons 등 여러 벤치마크에서 최신(fully-supervised) 객체 검출 방법들과 경쟁력을 갖추고 있습니다. 우리의 코드는 https://github.com/FelixCaae/CrowdSAM에서 확인할 수 있습니다.