2달 전

오픈 보카브러리 객체 검출을 위한 시각 및 언어 지식 증류

Xiuye Gu; Tsung-Yi Lin; Weicheng Kuo; Yin Cui
오픈 보카브러리 객체 검출을 위한 시각 및 언어 지식 증류
초록

우리는 임의의 텍스트 입력으로 설명된 객체를 감지하는 오픈 보카브러리 객체 검출(open-vocabulary object detection)을 발전시키는 것을 목표로 합니다. 이 접근법의 근본적인 도전 과제는 학습 데이터의 확보입니다. 기존 객체 검출 데이터셋에 포함된 클래스 수를 더 늘리는 것은 비용이 많이 들기 때문입니다. 이러한 도전 과제를 극복하기 위해, 우리는 비전과 언어 지식 증류(Vision and Language knowledge Distillation) 방법을 통해 ViLD(Vision and Language Distillation for Object Detection)라는 학습 방법을 제안합니다.우리의 방법은 사전 학습된 오픈 보카브러리 이미지 분류 모델(teacher)에서 두 단계 검출기(student)로 지식을 증류합니다. 구체적으로, teacher 모델을 사용하여 카테고리 텍스트와 객체 제안(image proposals)의 이미지 영역을 인코딩합니다. 그런 다음, teacher가 추론한 텍스트 및 이미지 임베딩과 일치하도록 detected 박스들의 영역 임베딩을 정렬하는 student 검출기를 학습시킵니다.우리는 모든 희귀 카테고리를 새로운 카테고리로 설정하여 LVIS 벤치마크를 수행하였습니다. 이때, ViLD는 ResNet-50 백본을 사용하여 16.1 mask AP$r$를 달성하였으며, 이는 감독 학습 대응 모델보다 3.8 포인트 높은 성능을 보였습니다. 강력한 teacher 모델인 ALIGN로 학습할 경우, ViLD는 26.3 AP$_r$를 달성하였습니다. 이 모델은 fine-tuning 없이도 다른 데이터셋으로 직접 전환할 수 있으며, PASCAL VOC에서는 72.2 AP${50}$, COCO에서는 36.6 AP, Objects365에서는 11.8 AP를 달성하였습니다.COCO에서 ViLD는 novel AP에서 이전 최신 기술(state-of-the-art)보다 4.8 포인트 높은 성능을 보였으며, 전체 AP에서는 11.4 포인트 높은 성능을 나타냈습니다. 코드와 데모는 https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild에서 공개되었습니다.

오픈 보카브러리 객체 검출을 위한 시각 및 언어 지식 증류 | 최신 연구 논문 | HyperAI초신경