2달 전

고성능, 학습 없는 오픈 보카빌리 세그멘테이션을 위한 비전 기초 모델 활용

Yuheng Shi; Minjing Dong; Chang Xu
고성능, 학습 없는 오픈 보카빌리 세그멘테이션을 위한 비전 기초 모델 활용
초록

대조적 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP)은 오픈 보카브러리(open-vocabulary) 예측을 발전시켰지만, 의미 분할(semantic segmentation) 성능은 여전히 최적이 아닙니다. 이 부족함은 주로 공간 불변성(spatial-invariant) 의미 특징과 제한된 해상도에서 비롯됩니다. 과거의 적응들은 CLIP의 이미지 인코더에서 자기 주의(self-attention)를 수정하여 공간 불변성을 해결하였으나, 해상도 제한 문제는 아직 탐구되지 않았습니다. 기존의 세그먼트-그리고-스플라이스(segment-then-splice) 방법들이 슬라이딩 윈도우를 통해 부분 이미지를 세그먼트하고 결과를 합치는 것과 달리, 우리는 고해상도 이미지에서 미세한 의미 상관관계(fine-grained semantic correlations)를 추출하는 데 뛰어난 Segment-Anything Model(SAM)을 활용하여 해상도 문제를 해결하기 위한 스플라이스-그리고-세그먼트(splice-then-segment) 패러다임을 도입하였습니다.특히, 우리는 트라이던트(Trident)라는 학습 없는(free-training) 프레임워크를 소개합니다. 이 프레임워크는 먼저 CLIP과 DINO가 부분 이미지에서 추출한 특징들을 합친 후, SAM의 인코더를 이용하여 전역 집계(global aggregation)용 상관 행렬(correlation matrix)을 생성하여 효과적인 세그먼트를 위해 수용 영역(receptive field)을 확장합니다. 또한, CLIP의 거친(coarse) 세그먼트 출력들을 SAM에 대한 프롬프트(prompt)로 변환하여 세그먼트 성능을 더욱 향상시키는 정제 전략(refinement strategy)을 제안합니다. 트라이던트는 현재 최신 기술(state-of-the-art, SOTA)과 비교하여 8개 벤치마크에서 mIoU(mean Intersection over Union)가 크게 개선되었으며, 44.4에서 48.6으로 증가하였습니다. 코드는 https://github.com/YuHengsss/Trident 에서 제공됩니다.

고성능, 학습 없는 오픈 보카빌리 세그멘테이션을 위한 비전 기초 모델 활용 | 최신 연구 논문 | HyperAI초신경