11일 전

CLIP 내 지역적 단서 탐색을 통한 제로샷 세그멘테이션

{Shi-Min Hu, Miao Wang, Meng-Hao Guo, Yi Zhang}
CLIP 내 지역적 단서 탐색을 통한 제로샷 세그멘테이션
초록

CLIP는 대규모 이미지-텍스트 쌍에 대한 강력한 사전 훈련을 통해 시각 인식 분야에서 두드러진 성과를 보여왔다. 그러나 여전히 해결해야 할 핵심 과제가 존재한다. 즉, 이미지 수준의 지식을 픽셀 수준의 이해 작업, 예를 들어 의미 분할(semantic segmentation)로 전이하는 방법이다. 본 논문에서는 이와 같은 과제를 해결하기 위해 CLIP 모델의 능력과 제로샷 의미 분할 작업의 요구 사항 사이의 격차를 분석한다. 본 분석 및 관찰을 바탕으로, 제로샷 의미 분할을 위한 새로운 방법인 CLIP-RC(Regional Clues를 활용한 CLIP)를 제안하며, 두 가지 주요 통찰을 제시한다. 먼저, 세부적인 의미 정보를 제공하기 위해 영역 수준의 다리(bridge)가 필수적임을 밝혔다. 또한, 훈련 단계에서 과적합(overfitting)을 완화해야 함을 확인하였다. 이러한 발견들에 기반하여 CLIP-RC는 PASCAL VOC, PASCAL Context, COCO-Stuff 164K를 포함한 다양한 제로샷 의미 분할 벤치마크에서 최신 기술(SOTA) 성능을 달성하였다. 코드는 https://github.com/Jittor/JSeg 에 공개될 예정이다.

CLIP 내 지역적 단서 탐색을 통한 제로샷 세그멘테이션 | 최신 연구 논문 | HyperAI초신경