
초록
우리는 감독 없이 객체를 분할하는 새로운 방법인 MOVE를 소개합니다. MOVE는 전경 객체가 초기 위치에 대해 국소적으로 이동될 수 있으며, 이로 인해 현실적인(왜곡되지 않은) 새로운 이미지가 생성된다는 사실을 활용합니다. 이러한 특성 덕분에 우리는 주석이 없는 이미지 데이터셋에서 분할 모델을 훈련시키고, 비감독 주요 객체 검출 및 분할 평가 데이터셋에서 최신 기술(SotA) 성능을 달성할 수 있습니다. 비감독 단일 객체 발견에서 MOVE는 SotA 대비 평균 CorLoc 개선률 7.2%를 보여주며, 비감독 클래스 무관 객체 검출에서는 평균적으로 상대적 AP 개선률 53%를 제공합니다. 우리의 접근 방식은 자기 감독 특징(예: DINO 또는 MAE에서의 특징), 마스크 오토인코더 기반의 인페인팅 네트워크, 그리고 적대적 훈련 위에 구축되어 있습니다.