3달 전

RTGen: 개방형 어휘 객체 탐지를 위한 영역-텍스트 쌍 생성

Fangyi Chen, Han Zhang, Zhantao Yang, Hao Chen, Kai Hu, Marios Savvides
RTGen: 개방형 어휘 객체 탐지를 위한 영역-텍스트 쌍 생성
초록

오픈-보라티지 객체 탐지(Open-vocabulary object detection, OVD)는 영역-의미 간의 관계를 효과적으로 모델링하는 것을 요구하며, 이는 방대한 양의 영역-텍스트 쌍에서 학습될 수 있다. 그러나 라벨링 비용이 크기 때문에 실질적으로 이러한 데이터는 제한적이다. 본 연구에서는 확장 가능한 오픈-보라티지 영역-텍스트 쌍을 생성하는 RTGen을 제안하며, 이가 오픈-보라티지 객체 탐지 성능을 향상시키는 데 효과적임을 입증한다. RTGen은 확장 가능한 이미지-캡션 데이터를 기반으로 텍스트에서 영역으로, 영역에서 텍스트로의 생성 과정을 모두 포함한다. 텍스트에서 영역으로의 생성은 이미지 보정(image inpainting) 기반으로 이루어지며, 전체 레이아웃의 조화를 위해 제안한 장면 인식 보정 가이더(scene-aware inpainting guider)에 의해 유도된다. 영역에서 텍스트로의 생성은 다양한 프롬프트를 사용해 영역 수준의 이미지 캡션을 다수 수행하고, CLIP 유사도 기준에 따라 가장 적합한 텍스트를 선택함으로써 수행된다. 영역-텍스트 쌍을 기반으로 탐지 모델을 훈련하기 위해, 다양한 정위치 정확도를 갖춘 객체 제안을 학습할 수 있도록 정위치 인식 영역-텍스트 대조 손실( localization-aware region-text contrastive loss)도 도입하였다. 광범위한 실험을 통해 RTGen이 확장 가능하고 의미적으로 � бог rich하며 효과적인 오픈-보라티지 객체 탐지의 원천이 될 수 있음을 입증하였으며, 더 많은 데이터를 활용할수록 모델 성능이 지속적으로 향상됨을 보여주었고, 기존 최고 수준의 기법들보다 뛰어난 성능을 제공함을 확인하였다.