2달 전

영역 인식 사전 학습을 이용한 오픈 보카브러리 객체 검출을 위한 비전 트랜스포머의 활용

Dahun Kim; Anelia Angelova; Weicheng Kuo
영역 인식 사전 학습을 이용한 오픈 보카브러리 객체 검출을 위한 비전 트랜스포머의 활용
초록

우리는 Region-aware Open-vocabulary Vision Transformers (RO-ViT)를 제시합니다. 이는 이미지 레벨 사전 학습과 오픈 보카브러리 객체 검출 사이의 간극을 메우기 위한 대조적 이미지-텍스트 사전 학습 방법론입니다. 사전 학습 단계에서 우리는 전체 이미지 위치 임베딩을 사용하는 대신 위치 임베딩의 영역을 무작위로 잘라내고 크기를 조정하는 방법을 제안합니다. 이는 검출 미세 조정 단계에서 위치 임베딩이 영역 레벨에서 사용되는 것을 더 잘 맞춥니다. 또한, 대조학습에서 일반적으로 사용되는 소프트맥스 크로스 엔트로피 손실 함수를 정보량이 많지만 어려운 예제들을 더 잘 학습하기 위해 포칼 손실(focal loss)로 대체합니다. 마지막으로, 최근의 새로운 객체 제안 기술들을 활용하여 오픈 보카브러리 검출 미세 조정을 개선합니다.우리는 완성된 모델을 LVIS와 COCO 오픈 보카브러리 검출 벤치마크 및 제로샷 전송(zero-shot transfer)에 대해 평가했습니다. RO-ViT는 LVIS에서 최신 기술인 34.1 $AP_r$를 달성하여 기존 최고 접근 방식보다 +7.8 포인트를 초과하였으며, 경쟁력 있는 제로샷 전송 검출 성능도 보여주었습니다. 놀랍게도, RO-ViT는 이미지 레벨 표현도 개선하며 COCO와 Flickr 이미지-텍스트 검색 벤치마크의 12개 지표 중 9개에서 최신 기술 수준의 성능을 달성하여 더 큰 모델을 사용한 경쟁력 있는 접근 방식들을 능가하였습니다.

영역 인식 사전 학습을 이용한 오픈 보카브러리 객체 검출을 위한 비전 트랜스포머의 활용 | 최신 연구 논문 | HyperAI초신경