2달 전

OV-DQUO: 오픈-보카브러리 DETR with Denoising 텍스트 쿼리 트레이닝 및 오픈 월드 미지 객체 감독

Junjie Wang; Bin Chen; Bin Kang; Yulin Li; YiChi Chen; Weizhi Xian; Huifeng Chang; Yong Xu
OV-DQUO: 오픈-보카브러리 DETR with Denoising 텍스트 쿼리 트레이닝 및 오픈 월드 미지 객체 감독
초록

오픈-보카블러리 감지는 기지 카테고리를 벗어난 새로운 카테고리의 객체를 검출하는 것을 목표로 합니다. 그러나 기지 카테고리 데이터로 훈련된 기존의 오픈-보카블러리 감지기는 훈련된 카테고리에 더 높은 신뢰도를 부여하고, 새로운 카테고리를 배경과 혼동하는 경향이 있습니다. 이를 해결하기 위해, 우리는 OV-DQUO라는 방법을 제안합니다. 이는 \textbf{O}pen-\textbf{V}ocabulary DETR에 \textbf{D}enoising text \textbf{Q}uery 훈련과 오픈 월드 \textbf{U}nknown \textbf{O}bjects 감독을 결합한 모델입니다.특히, 우리는 와일드카드 매칭 방법을 도입하였습니다. 이 방법은 오픈 월드 감지기에 의해 인식된 알려지지 않은 객체와 일반적인 의미론적 텍스트 임베딩 쌍으로부터 학습할 수 있도록 하여, 기지 카테고리와 새로운 카테고리 사이의 신뢰도 편향을 완화시킵니다. 또한, 우리는 노이즈 제거 텍스트 쿼리 훈련 전략을 제안합니다. 이 전략은 오픈 월드 알려지지 않은 객체로부터 전경 및 배경 쿼리-박스 쌍을 합성하여 대조 학습을 통해 감지기를 훈련시키며, 이를 통해 새로운 객체를 배경과 구분하는 능력을 강화합니다.우리는 어려운 OV-COCO 및 OV-LVIS 벤치마크에서 광범위한 실험을 수행하였으며, 각각 45.6 AP50와 39.3 mAP의 새로운 최신 성능 결과를 달성하였습니다. 추가적인 훈련 데이터 없이 이러한 성능을 얻었습니다. 모델과 코드는 \url{https://github.com/xiaomoguhz/OV-DQUO}에서 제공됩니다.

OV-DQUO: 오픈-보카브러리 DETR with Denoising 텍스트 쿼리 트레이닝 및 오픈 월드 미지 객체 감독 | 최신 연구 논문 | HyperAI초신경