
초록
이미지 분할은 일반적으로 고정된 객체 클래스 집합에 대해 모델을 훈련시키는 방식으로 처리됩니다. 이후 추가 클래스나 더 복잡한 쿼리를 포함시키는 것은 비싸며, 이는 해당 표현들을 포괄하는 데이터셋에서 모델을 재훈련해야 하기 때문입니다. 본 연구에서는 테스트 시점에서 임의의 프롬프트를 기반으로 이미지 분할을 생성할 수 있는 시스템을 제안합니다. 프롬프트는 텍스트 또는 이미지일 수 있습니다. 이 접근법은 세 가지 주요 분할 작업(참조 표현 분할, 제로샷 분할, 원샷 분할)에 대한 통합 모델(한 번만 훈련)을 생성하는 것을 가능하게 합니다. 각 작업은 고유한 도전 과제를 동반합니다.우리는 CLIP 모델을 백본으로 사용하며, 이를 밀도 예측이 가능한 트랜스포머 기반 디코더로 확장하였습니다. PhraseCut 데이터셋의 확장 버전에서 훈련된 후, 우리의 시스템은 자유형식의 텍스트 프롬프트 또는 쿼리를 표현하는 추가 이미지를 기반으로 이미지에 대한 이진 분할 맵을 생성합니다. 우리는 후자의 이미지 기반 프롬프트의 다양한 변형을 상세히 분석하였습니다.이 새로운 하이브리드 입력 방식은 위에서 언급한 세 가지 분할 작업뿐만 아니라, 텍스트 또는 이미지 쿼리가 구성될 수 있는 모든 이진 분할 작업에 대한 동적 적응을 가능하게 합니다. 마지막으로, 우리 시스템은 용도나 속성을 포함하는 일반화된 쿼리에도 잘 적응함을 확인하였습니다. 코드는 https://eckerlab.org/code/clipseg 에서 제공됩니다.