원샷으로 세그먼트 임의 모델 개인화하기

대용량 데이터 사전 학습에 의해 구동되는 Segment Anything Model (SAM)은 강력하고 프롬프트 기반의 프레임워크로, 분할 모델을 혁신적으로 변화시켰습니다. 그러나 특정 시각적 개념에 대한 SAM의 맞춤화는 인력에 의한 프롬프팅 없이는 아직 충분히 연구되지 않았습니다. 예를 들어, 다양한 이미지에서 자동으로 자신의 애완견을 분할하는 것입니다. 본 논문에서는 훈련이 필요하지 않는 SAM 개인화 접근 방식인 PerSAM을 제안합니다. 단일 이미지와 참조 마스크만 주어진 경우, PerSAM은 위치 사전 정보를 통해 목표 개념을 먼저 위치시키고, 타겟 유도 주의 메커니즘(target-guided attention), 타겟 의미론적 프롬프팅(target-semantic prompting), 그리고 계단식 후처리(cascaded post-refinement)라는 세 가지 기술을 사용하여 다른 이미지나 비디오에서 해당 개념을 분할합니다. 이 방법으로 우리는 어떠한 훈련 없이도 SAM을 개인적인 용도로 효과적으로 적응시킬 수 있습니다.마스크의 모호성을 더욱 완화하기 위해, 우리는 효율적인 원샷 미세 조정 변형인 PerSAM-F를 제시합니다. 전체 SAM을 동결한 상태에서, 다중 스케일 마스크를 위한 두 개의 학습 가능한 가중치를 도입하여 10초 이내에 2개의 매개변수만 훈련시키며, 성능 향상을 위해 이를 활용합니다. 우리의 효과성을 입증하기 위해, 개인화된 평가를 위한 새로운 분할 데이터셋인 PerSeg를 구성하였으며, 비디오 객체 분할에서 경쟁력 있는 성능으로 우리의 방법들을 테스트하였습니다. 또한, 우리의 접근 방식은 DreamBooth를 강화하여 Stable Diffusion을 텍스트-이미지 생성(text-to-image generation)에 맞춤화하는데 사용될 수 있으며, 이는 배경 간섭을 제거하여 더 나은 타겟 외관 학습을 가능하게 합니다. 코드는 https://github.com/ZrrSkywalker/Personalize-SAM 에서 제공됩니다.