16일 전

매처: 보편적 특징 매칭을 이용한 하나의 예시로 '어떤 세그먼테이션' 수행

Yang Liu, Muzhi Zhu, Hengtao Li, Hao Chen, Xinlong Wang, Chunhua Shen
매처: 보편적 특징 매칭을 이용한 하나의 예시로 '어떤 세그먼테이션' 수행
초록

대규모 사전 훈련 기반으로 구동되는 비전 기초 모델은 오픈월드 이미지 이해 분야에서 큰 잠재력을 보이고 있다. 그러나 대규모 언어 모델이 다양한 언어 작업을 직접 처리하는 데 뛰어난 것과 달리, 비전 기초 모델은 특정 작업에 맞춘 모델 구조를 필요로 하며, 이후 특정 작업에 대해 미세 조정(fine-tuning)이 필요하다. 본 연구에서는 다양한 인지 작업을 해결하기 위해 사전에 구축된 비전 기초 모델을 활용하는 새로운 인지 패러다임인 Matcher를 제안한다. Matcher는 학습 없이도 문맥 내 예시(in-context example)를 사용하여 어떤 객체든 세그멘테이션을 수행할 수 있다. 또한, 이러한 기초 모델과 협력하여 다양한 인지 작업에서 모델의 전체 잠재력을 발휘할 수 있도록 세 가지 효과적인 구성 요소를 Matcher 프레임워크 내에 설계하였다. Matcher는 모든 작업에서 학습 없이도 뛰어난 일반화 성능을 보이며, 예를 들어 COCO-20$^i$에서 단일 예시 하나만으로도 52.7%의 mIoU를 달성하여 최신 전문 모델보다 1.6% 높은 성능을 기록했다. 또한 제안한 LVIS-92$^i$에서 싱글샷(sematic) 세그멘테이션 작업에 대해 33.0%의 mIoU를 달성하며, 최신 일반화 모델보다 14.4% 높은 성능을 보였다. 시각화 결과를 통해 Matcher가 실제 환경의 이미지에 적용되었을 때 오픈월드 일반화 능력과 유연성이 뛰어나다는 점을 추가로 입증하였다. 본 연구의 코드는 https://github.com/aim-uofa/Matcher 에서 확인할 수 있다.

매처: 보편적 특징 매칭을 이용한 하나의 예시로 '어떤 세그먼테이션' 수행 | 최신 연구 논문 | HyperAI초신경