11일 전

RegionCLIP: 기반 영역 언어-이미지 사전학습

Yiwu Zhong, Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella, Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, Jianfeng Gao
RegionCLIP: 기반 영역 언어-이미지 사전학습
초록

이미지-텍스트 쌍을 활용한 대조적 언어-이미지 사전학습(Contrastive Language-Image Pretraining, CLIP)은 제로샷 및 전이학습 환경에서 이미지 분류 작업에서 놀라운 성과를 달성했다. 그러나 본 연구에서는 이러한 모델을 객체 탐지에서 이미지 영역을 인식하는 데 직접 적용할 경우, 도메인 전이(domain shift)로 인해 성능이 저하됨을 보여준다. 즉, CLIP는 전체 이미지와 텍스트 설명 간의 일치를 학습하는 데 중점을 두었으며, 이미지 영역과 텍스트 구간 간의 세밀한 정렬을 포착하지 못한다. 이 문제를 완화하기 위해, 이미지 영역과 텍스트 개념 간의 세밀한 정렬을 가능하게 하기 위해 CLIP의 능력을 크게 확장한 새로운 방법인 RegionCLIP을 제안한다. 본 방법은 CLIP 모델을 활용해 이미지 영역과 템플릿 형식의 캡션을 매칭한 후, 이 영역-텍스트 쌍을 특징 공간에서 정렬하도록 사전학습한다. 사전학습된 모델을 오픈-보이드(open-vocabulary) 객체 탐지 작업에 전이할 때, COCO 및 LVIS 데이터셋에서 각각 3.8 AP50 및 2.2 AP의 성능 향상을 보이며 기존 최고 수준의 모델을 크게 능가한다. 또한, 학습된 영역 표현은 객체 탐지에 대한 제로샷 추론을 지원하며, COCO 및 LVIS 데이터셋 모두에서 유망한 결과를 보였다. 본 연구의 코드는 https://github.com/microsoft/RegionCLIP 에 공개되어 있다.

RegionCLIP: 기반 영역 언어-이미지 사전학습 | 최신 연구 논문 | HyperAI초신경