2달 전

캡션을 활용한 개방형 어휘 객체 검출

Alireza Zareian; Kevin Dela Rosa; Derek Hao Hu; Shih-Fu Chang
캡션을 활용한 개방형 어휘 객체 검출
초록

깊은 신경망이 객체 검출에서 뛰어난 정확도를 보이는 반면, 감독 요구 사항으로 인해 훈련과 확장에 많은 비용이 든다. 특히, 더 많은 객체 카테고리를 학습하려면 일반적으로 비례하여 더 많은 바운딩 박스 주석이 필요하다. 약간의 감독과 제로샷(Zero-shot) 학습 기술은 더 적은 감독으로 더 많은 카테고리의 객체 검출기를 확장하기 위해 연구되었지만, 이들은 감독된 모델만큼 성공적이거나 널리 채택되지는 않았�다. 본 논문에서는 객체 검출 문제의 새로운 공식화인 오픈-보카블러리 객체 검출을 제안한다. 이는 약간의 감독과 제로샷 접근법보다 더 일반적이고, 실용적이며 효과적이다. 우리는 한정된 객체 카테고리 집합에 대한 바운딩 박스 주석뿐만 아니라, 다양한 객체를 포함하고 있으며 상대적으로 낮은 비용으로 제공되는 이미지-캡션 쌍을 사용하여 객체 검출기를 훈련시키는 새로운 방법을 제안한다. 실험 결과, 제안된 방법은 훈련 중 바운딩 박스 주석이 제공되지 않은 객체를 제로샷 접근법보다 훨씬 높은 정확도로 검출하고 위치할 수 있음을 보였다. 또한, 바운딩 박스 주석이 있는 객체는 감독된 방법과 거의 동일한 정확도로 검출될 수 있으며, 이는 약간의 감독 기준점보다 크게 우수하다. 따라서, 우리는 확장 가능한 객체 검출 분야에서 새로운 최신 기술을 확립하였다.

캡션을 활용한 개방형 어휘 객체 검출 | 최신 연구 논문 | HyperAI초신경