11일 전

대비 특징 마스킹을 활용한 오픈-보라비리티 비전 트랜스포머

Dahun Kim, Anelia Angelova, Weicheng Kuo
대비 특징 마스킹을 활용한 오픈-보라비리티 비전 트랜스포머
초록

우리는 개방형 어휘 물체 탐지(open-vocabulary object detection, OVD)를 위한 이미지-텍스트 사전학습 방법론인 대조적 특징 마스킹 비전 트랜스포머(Contrastive Feature Masking Vision Transformer, CFM-ViT)를 제안한다. 이 방법은 이미지 수준과 영역 수준의 표현을 동시에 학습함으로써 OVD에 효과적으로 대응한다. 제안하는 접근법은 마스킹 자동부호화기(Masked Autoencoder, MAE) 목적함수를 대조적 학습 목적함수와 결합하여 위치 인식 작업에 적합한 표현을 개선한다. 기존의 MAE와 달리, 우리는 전통적으로 픽셀 공간에서 재구성하는 대신 이미지-텍스트 임베딩 공간에서 재구성을 수행함으로써, 모델이 영역 수준의 의미를 더 잘 학습할 수 있도록 한다. 또한, 사전학습 단계에서 위치 임베딩을 무작위로 제거하는 위치 임베딩 드롭아웃(Positional Embedding Dropout, PED)을 도입하여 이미지-텍스트 사전학습과 탐지 미세조정 사이의 스케일 변동 문제를 해결한다. PED는 탐지 성능을 향상시키며, 동결된 ViT 백본을 영역 분류기로 사용할 수 있게 해 주어 탐지 미세조정 과정에서 개방형 어휘 지식이 소실되는 것을 방지한다. LVIS 개방형 탐지 벤치마크에서 CFM-ViT는 최신 기술 기준인 33.9 AP$r$을 달성하며, 기존 최고 성능 방법보다 7.6점 높은 성능을 기록하였고, 제로샷 탐지 전이 성능에서도 우수한 결과를 보였다. 마지막으로, CFM-ViT는 강력한 이미지 수준 표현 능력을 갖추고 있으며, 제로샷 이미지-텍스트 검색 벤치마크의 12개 지표 중 8개에서 최신 기술을 초월하는 성능을 보였다.

대비 특징 마스킹을 활용한 오픈-보라비리티 비전 트랜스포머 | 최신 연구 논문 | HyperAI초신경