2달 전
WeakSAM: Segment Anything Meets Weakly-supervised Instance-level Recognition
Zhu, Lianghui ; Zhou, Junwei ; Liu, Yan ; Hao, Xin ; Liu, Wenyu ; Wang, Xinggang

초록
약한 감독 하의 시각적 인식은 중요한 동시에 어려운 학습 문제입니다. 이는 인간의 라벨링 비용을 크게 줄이며, 전통적으로 다중 인스턴스 학습과 의사 라벨링에 의존해 왔습니다. 본 논문에서는 WeakSAM을 소개하며, 시각 기초 모델(Vision Foundation Model)인 Segment Anything Model(SAM)이 사전에 학습한 세계 지식을 활용하여 약한 감독 하의 객체 검출(Weakly-Supervised Object Detection, WSOD)과 분할(Weakly-Supervised Instance Segmentation, WSIS) 문제를 해결합니다. WeakSAM은 적응형 의사 정답 데이터(Pseudo Ground Truth, PGT) 생성과 관심 영역.Region of Interest (RoI) 드롭 정규화를 통해 전통적인 WSOD 재학습에서 발생하는 두 가지 주요 제약 조건, 즉 PGT의 불완전성과 노이즈 있는 PGT 인스턴스 문제를 해결합니다. 또한 SAM이 자동 객체 검출 및 분할에서 프롬프트(prompt) 필요성과 카테고리 무지(category unawareness) 문제를 해결합니다. 우리의 결과는 WeakSAM이 WSOD와 WSIS 벤치마크에서 이전 최신 방법론들을 큰 마진으로 크게 능가함을 나타내며, 각각 평균 7.4%와 8.5% 개선된 것으로 보입니다. 코드는 \url{https://github.com/hustvl/WeakSAM}에서 제공됩니다.