11일 전

조건부 매칭을 활용한 오픈-보라티지 DETR

Yuhang Zang, Wei Li, Kaiyang Zhou, Chen Huang, Chen Change Loy
조건부 매칭을 활용한 오픈-보라티지 DETR
초록

오픈-보라티지 객체 탐지(Open-vocabulary object detection)는 자연어를 기반으로 새로운 객체를 탐지하는 문제에 초점을 맞추며, 최근 연구 커뮤니티의 주목을 받고 있다. 이상적으로는, 사용자가 자연어 또는 예시 이미지 형태로 입력한 정보를 바탕으로 경계 박스 예측을 생성할 수 있는 오픈-보라티지 탐지기의 확장이 가능했으면 한다. 이는 인간-컴퓨터 상호작용에서 높은 유연성과 사용자 경험을 제공한다. 이를 달성하기 위해, DETR 기반의 새로운 오픈-보라티지 탐지기인 OV-DETR를 제안한다. OV-DETR는 학습을 마친 후, 객체의 클래스 이름이나 예시 이미지를 입력받아 어떠한 객체든 탐지할 수 있다. DETR을 오픈-보라티지 탐지기로 전환하는 데 가장 큰 도전 과제는, 레이블이 부여된 이미지에 접근하지 못한 상태에서 새로운 클래스에 대한 분류 비용 행렬을 계산하는 것이 불가능하다는 점이다. 이 문제를 극복하기 위해, 입력 쿼리(클래스 이름 또는 예시 이미지)와 해당 객체 사이의 이진 매칭(binary matching)을 목표로 하는 학습 목적을 제안한다. 이는 테스트 시 미지의 쿼리에 대해 일반화할 수 있는 유용한 대응 관계를 학습하는 데 기여한다. 학습 과정에서는, 텍스트 및 이미지 쿼리 모두에 대해 매칭이 가능하도록 하기 위해, CLIP과 같은 사전 학습된 시각-언어 모델로부터 얻은 입력 임베딩을 트랜스포머 디코더에 조건화하는 방식을 채택한다. LVIS 및 COCO 데이터셋에서 실시한 광범위한 실험을 통해, 본 연구에서 제안하는 OV-DETR — 세계 최초의 엔드투엔드 트랜스포머 기반 오픈-보라티지 탐지기 — 가 현재 최고 수준의 기법들에 비해 의미 있는 성능 향상을 달성함을 입증하였다.

조건부 매칭을 활용한 오픈-보라티지 DETR | 최신 연구 논문 | HyperAI초신경