2달 전

배경 학습 가능한 캐스케이드를 이용한 제로샷 객체 검출

Ye Zheng; Ruoran Huang; Chuanqi Han; Xi Huang; Li Cui
배경 학습 가능한 캐스케이드를 이용한 제로샷 객체 검출
초록

제로샷 검출(ZSD)은 대규모 객체 검출에서 미리 본 적 없는 객체를 동시에 위치 추정하고 인식하는 데 중요한 역할을 합니다. ZSD에는 여전히 몇 가지 도전 과제가 남아 있으며, 이는 배경과 미발견 객체 간의 모호성을 줄이고 시각적 개념과 의미론적 개념 간의 일치성을 개선하는 것을 포함합니다. 본 연구에서는 ZSD 성능을 향상시키기 위한 새로운 프레임워크인 배경 학습 가능한 캐스케이드(Background Learnable Cascade, BLC)를 제안합니다. BLC의 주요 기여점은 다음과 같습니다: (i) 시각적 특징과 의미론적 특징 간의 일치성을 단계적으로 개선하기 위해 캐스케이드 의미론 R-CNN(Cascade Semantic R-CNN)이라는 다단계 캐스케이드 구조를 제안합니다; (ii) 의미론 정보 흐름 구조를 개발하여 이를 캐스케이드 의미론 R-CNN의 각 단계 사이에 직접 추가하여 의미론적 특징 학습을 더욱 개선합니다; (iii) 배경 클래스에 적절한 단어 벡터를 학습하고 이 학습된 벡터를 캐스케이드 의미론 R-CNN에서 사용하기 위한 배경 학습 가능한 영역 제안 네트워크(Background Learnable Region Proposal Network, BLRPN)를 제안합니다. 이러한 설계는 "배경 학습 가능"을 만들고 배경과 미발견 클래스 간의 혼동을 줄입니다. 우리의 광범위한 실험 결과는 BLC가 최신 방법들보다 MS-COCO 데이터셋에서 상당히 우수한 성능 향상을 얻음을 보여줍니다.

배경 학습 가능한 캐스케이드를 이용한 제로샷 객체 검출 | 최신 연구 논문 | HyperAI초신경