17일 전

SegCLIP: 열린 어휘 의미 분할을 위한 학습 가능한 중심점을 활용한 패치 집약

Huaishao Luo, Junwei Bao, Youzheng Wu, Xiaodong He, Tianrui Li
SegCLIP: 열린 어휘 의미 분할을 위한 학습 가능한 중심점을 활용한 패치 집약
초록

최근 들어, 대조적 언어-이미지 사전 훈련(예: CLIP)은 다양한 후속 작업에서 희망적인 성과를 보여주고 있다. 사전 훈련된 모델은 대규모 텍스트-이미지 데이터로부터 학습함으로써 이미지에 대한 풍부한 시각적 개념을 포착할 수 있다. 그러나 학습된 시각적 지식을 오픈-보이어티(semantics) 세그멘테이션에 전이하는 것은 여전히 탐색이 부족한 영역이다. 본 논문에서는 annotation-free(라벨 없이) 방식으로 오픈-보이어티 세그멘테이션 문제에 대해 CLIP 기반의 모델인 SegCLIP을 제안한다. SegCLIP은 ViT(Visual Transformer) 기반으로 설계되었으며, 주요 아이디어는 텍스트-이미지 쌍에 대한 훈련을 통해 가변적인 중심점을 갖는 패치들을 의미적 영역으로 집합하는 것이다. 이 집합 연산은 의미적 그룹을 동적으로 포착할 수 있으며, 최종 세그멘테이션 결과 생성에 활용될 수 있다. 또한, 마스킹된 패치에 대한 재구성 손실과 가상 레이블을 사용한 슈퍼픽셀 기반 KL 손실을 제안하여 시각적 표현을 강화한다. 실험 결과, 기존의 베이스라인 모델 대비 PASCAL VOC 2012(+0.3% mIoU), PASCAL Context(+2.3% mIoU), COCO(+2.2% mIoU)에서 비교적 또는 더 뛰어난 세그멘테이션 정확도를 달성하였다. 코드는 https://github.com/ArrowLuo/SegCLIP 에 공개한다.

SegCLIP: 열린 어휘 의미 분할을 위한 학습 가능한 중심점을 활용한 패치 집약 | 최신 연구 논문 | HyperAI초신경