4달 전
광범위한 어휘 객체 검출을 위한 포괄적인 다중 모드 프로토타입은 간단하면서도 효과적인 분류자입니다.
Yitong Chen; Wenhao Yao; Lingchen Meng; Sihong Wu; Zuxuan Wu; Yu-Gang Jiang

초록
객체 검출에서 광범위한 오픈 월드 카테고리를 인식시키는 것은 오랜 시간 동안 추구되어온 목표입니다. 시각-언어 모델의 일반화 능력을 활용함으로써, 현재의 오픈 월드 검출기는 제한된 카테고리로 훈련되었음에도 불구하고 더 넓은 범위의 어휘를 인식할 수 있습니다. 그러나 훈련 중인 카테고리 어휘의 규모가 실제 세계 수준으로 확대되면, 이전에 사용되던 대략적인 클래스 이름을 기반으로 한 분류기들은 이러한 검출기들의 인식 성능을 크게 저하시킵니다. 본 논문에서는 Prova라는 다중 모달 프로토타입 분류기를 소개합니다. Prova는 광범위한 어휘 객체 인식 실패 문제를 해결하기 위해 포괄적인 다중 모달 프로토타입을 추출하여 정렬 분류기의 초기화를 수행합니다. V3Det에서 이 간단한 방법은 감독 학습 및 오픈 어휘 설정 모두에서 단일 단계, 두 단계, 그리고 DETR 기반 검출기들의 성능을 크게 향상시킵니다. 특히, Prova는 V3Det의 감독 학습 설정에서 Faster R-CNN, FCOS, DINO를 각각 3.3, 6.2, 2.9 AP만큼 개선했습니다. 오픈 어휘 설정에서는 Prova가 32.8 베이스 AP와 11.0 노벨 AP를 달성하여 이전 방법들보다 각각 2.6과 4.3의 성능 향상을 보였습니다.(참고: "DETR"는 "Detection Transformer"의 약자이며, "AP"는 "Average Precision"의 약자입니다.)