11일 전

패치 정렬 대조 학습을 통한 오픈 어휘 의미 분할

Jishnu Mukhoti, Tsung-Yu Lin, Omid Poursaeed, Rui Wang, Ashish Shah, Philip H.S. Torr, Ser-Nam Lim
패치 정렬 대조 학습을 통한 오픈 어휘 의미 분할
초록

우리는 CLIP의 대조 손실에 대한 수정된 호환성 함수로, 비전 인코더의 패치 토큰과 텍스트 인코더의 CLS 토큰 간의 정렬을 유도하는 '패치 정렬 대조 학습(Patch Aligned Contrastive Learning, PACL)'을 제안한다. 이러한 정렬을 통해 모델은 주어진 텍스트 입력에 해당하는 이미지 영역을 식별할 수 있으며, 학습 과정에서 세그멘테이션 레이블이 필요 없이 오픈 루브리카(open vocabulary) 의미 세그멘테이션 작업으로 원활하게 전이할 수 있다. 사전 학습된 CLIP 인코더에 PACL를 적용함으로써, Pascal VOC, Pascal Context, COCO Stuff, ADE20K 등 네 가지 다양한 세그멘테이션 벤치마크에서 오픈 루브리카 제로샷 세그멘테이션 작업에서 최신 기준(SOTA) 성능을 달성하였다. 또한 PACL가 이미지 수준 예측에도 적용 가능함을 보이며, CLIP 백본과 함께 사용할 경우 12개의 이미지 분류 데이터셋을 대상으로 한 제로샷 분류 정확도에서 CLIP 대비 일반적인 성능 향상을 제공함을 확인하였다.

패치 정렬 대조 학습을 통한 오픈 어휘 의미 분할 | 최신 연구 논문 | HyperAI초신경