2달 전

OV-DINO: 언어 인식 선택적 융합을 통한 통합 오픈 보카브러리 검출

Hao Wang; Pengzhen Ren; Zequn Jie; Xiao Dong; Chengjian Feng; Yinlong Qian; Lin Ma; Dongmei Jiang; Yaowei Wang; Xiangyuan Lan; Xiaodan Liang
OV-DINO: 언어 인식 선택적 융합을 통한 통합 오픈 보카브러리 검출
초록

오픈-어휘 검출은 훈련 중에 만나지 않은 클래스 이름을 포함하여 객체를 검출해야 하는 요구사항으로 인해 어려운 과제입니다. 기존 방법들은 다양한 대규모 데이터셋에서의 사전 학습과 의사 라벨링을 통해 강력한 제로샷 검출 능력을 보여주었습니다. 그러나 이러한 접근 방식은 두 가지 주요 문제에 직면해 있습니다: (i) 의사 라벨링에서 발생하는 데이터 노이즈를 효과적으로 제거하는 방법, (ii) 언어 인식 능력을 효율적으로 활용하여 지역 수준의 다중 모달 융합 및 정렬을 개선하는 방법입니다.이러한 문제들을 해결하기 위해, 우리는 언어 인식 선택적 융합을 통합된 프레임워크에서 수행하는 새로운 통합 오픈-어휘 검출 방법인 OV-DINO를 제안합니다. 구체적으로, 우리는 감지 중심 데이터 형식으로 다양한 데이터 소스를 통합하여 의사 라벨 생성 과정에서 노이즈를 제거하고 엔드투엔드 학습을 가능하게 하는 Unified Data Integration (UniDI) 파이프라인을 도입하였습니다. 또한, 언어 인식 쿼리 선택 및 융합 과정을 통해 다중 모달 정렬을 강화하기 위한 Language-Aware Selective Fusion (LASF) 모듈을 제안하였습니다.우리는 제안된 OV-DINO의 성능을 인기 있는 오픈-어휘 검출 벤치마크에서 평가하였으며, COCO 벤치마크에서는 50.6%의 AP(Average Precision), LVIS 벤치마크에서는 40.1%의 AP를 달성하여 최신 연구 결과와 비교해도 우수한 일반화 능력을 입증하였습니다. 더욱이, COCO에서 미세 조정(fine-tuning)된 OV-DINO는 58.4%의 AP를 달성하여 같은 백본(backbone)을 사용하는 많은 기존 방법들을 능가하였습니다. OV-DINO의 코드는 https://github.com/wanghao9610/OV-DINO에서 이용할 수 있습니다.

OV-DINO: 언어 인식 선택적 융합을 통한 통합 오픈 보카브러리 검출 | 최신 연구 논문 | HyperAI초신경