SAM에서 이미지별 프롬프트 요구 사항 완화: 위장된 객체 분할을 위한 단일 일반 프롬프트

ouflage된 객체 검출(COD) 방법은 주로 픽셀 단위로 주석이 달린 데이터셋에 크게 의존합니다. 약간의 감독을 받는 COD(WSCOD) 방법은 스케치나 점과 같은 희소한 주석을 사용하여 주석 작업을 줄이지만, 이는 정확도가 떨어질 수 있다는 단점이 있습니다. Segment Anything Model(SAM)은 점과 같은 희소한 프롬프트를 사용하여 뛰어난 분할 능력을 보여주지만, 수동 프롬프트는 항상 가능하지 않을 수 있으며, 실제 응용에서는 접근하기 어려울 수 있습니다. 또한, 이 방법은 의미론적 정보가 아닌 위치 정보만 제공하므로, 대상 해석에서 본질적으로 모호성을 초래할 수 있습니다.본 연구에서는 수동 프롬프트의 필요성을 제거하는 것을 목표로 합니다. 핵심 아이디어는 일반적인 텍스트 프롬프트가 제공하는 의미론적 정보를 이용하여 시각적 프롬프트를 추론하는 Cross-modal Chains of Thought Prompting(CCTP)을 활용하는 것입니다. 이를 위해 우리는 WSCOD를 위해 일반화된 작업 프롬프트에 따라 자동으로 시각적 프롬프트를 생성하고 최적화하는 테스트 시간 적응 메커니즘인 Generalizable SAM(GenSAM)을 소개합니다. 특히, CCTP는 비전-언어 모델을 사용하여 하나의 일반적인 텍스트 프롬프트를 이미지 특유의 전경 및 배경 열지도로 매핑하여 신뢰성 있는 시각적 프롬프트를 획득합니다.또한, 테스트 시간에 시각적 프롬프트를 적응시키기 위해 Progressive Mask Generation(PMG)을 제안하여 입력 이미지를 반복적으로 재가중시켜 모델이 대상을 거칠게부터 세밀하게 집중하도록 유도합니다. 중요한 것은 모든 네트워크 파라미터가 고정되어 있어 추가적인 학습이 필요하지 않다는 것입니다. 실험 결과, GenSAM의 우수성이 입증되었습니다. 세 가지 벤치마크에서 수행된 실험들은 GenSAM이 점 기반 감독 방법보다 우수하며, 스케치 기반 감독 방법과 유사한 결과를 도출한다는 것을 보여주는데, 이는 오직 일반적인 작업 설명만을 프롬프트로 사용한다는 점에서 더욱 의미가 깊습니다.코드는 다음 링크에서 확인할 수 있습니다: https://lwpyh.github.io/GenSAM/.