11일 전

개체 인지 디스틸레이션 피라미드를 활용한 오픈-보라비티 개체 탐지

Luting Wang, Yi Liu, Penghui Du, Zihan Ding, Yue Liao, Qiaosong Qi, Biaolong Chen, Si Liu
개체 인지 디스틸레이션 피라미드를 활용한 오픈-보라비티 개체 탐지
초록

오픈-보라티지 객체 탐지(open-vocabulary object detection)는 고정된 객체 카테고리 집합에 대해 학습된 객체 탐지기에게 임의의 텍스트 쿼리로 기술된 객체를 탐지할 수 있는 일반화 능력을 제공하는 것을 목표로 한다. 기존의 방법들은 사전 학습된 시각-언어 모델(Pretrained Vision-and-Language Models, PVLMs)에서 지식을 추출하고 이를 탐지기로 전달하기 위해 지식 증류(knowledge distillation) 기법을 활용한다. 그러나 비적응형의 제안 영역 자르기(proposal cropping) 및 단일 수준의 특징 모방(featue mimicking) 과정으로 인해 지식 추출 과정에서 정보 손실이 발생하고 지식 전달 효율이 낮다는 문제가 있다. 이러한 한계를 보완하기 위해, 객체 인지형 증류 피라미드(Object-Aware Distillation Pyramid, OADP) 프레임워크를 제안한다. 이 프레임워크는 객체 인지형 지식 추출(Object-Aware Knowledge Extraction, OAKE) 모듈과 증류 피라미드(Distillation Pyramid, DP) 메커니즘으로 구성된다. PVLMs로부터 객체 지식을 추출할 때, OAKE 모듈은 객체 제안을 적응적으로 변환하고 객체 인지형 마스크 어텐션을 도입하여 정밀하고 완전한 객체 지식을 획득한다. DP 메커니즘은 전역(global) 및 블록(block) 단위의 증류를 도입하여 객체 증류 과정에서 누락된 관계 정보를 보완하고, 보다 포괄적인 지식 전달을 실현한다. 광범위한 실험 결과는 제안하는 방법이 기존 방법보다 상당한 성능 향상을 달성함을 보여준다. 특히 MS-COCO 데이터셋에서 OADP 프레임워크는 $35.6$ mAP$^{\text{N}}{50}$의 성능을 기록하며, 현재 최고 성능을 기록하는 방법보다 $3.3$ mAP$^{\text{N}}{50}$ 높은 성능을 달성했다. 코드는 https://github.com/LutingWang/OADP 에 공개되어 있다.

개체 인지 디스틸레이션 피라미드를 활용한 오픈-보라비티 개체 탐지 | 최신 연구 논문 | HyperAI초신경