11일 전

OpenSD: 통합된 오픈-보라티지 세그멘테이션 및 탐지

Shuai Li, Minghan Li, Pengfei Wang, Lei Zhang
OpenSD: 통합된 오픈-보라티지 세그멘테이션 및 탐지
초록

최근 몇몇 오픈-보편적(open-vocabulary) 방법들이 통합된 아키텍처를 활용하여 일반적인 세그멘테이션 및 탐지 작업을 동시에 처리하기 위해 제안되었다. 그러나 이러한 방법들은 서로 다른 작업 간의 갈등으로 인해 전문화된 모델에 비해 성능이 뒤처지며, CLIP의 충분한 활용이 부족함으로 인해 오픈-보편적 능력이 제한적이다. 이러한 문제를 해결하기 위해, 오픈-보편적 세그멘테이션과 탐지 작업을 동일한 아키텍처와 네트워크 파라미터로 처리할 수 있는 유니버설 트랜스포머 기반 프레임워크인 OpenSD를 제안한다. 먼저, 물체(Thing)와 스태프(Stuff) 카테고리 간의 의미적 충돌을 완화하기 위해 디코더 분리 학습 전략을 도입하여, 동일한 프레임워크 내에서 각각의 작업이 보다 효과적으로 학습될 수 있도록 한다. 둘째, 엔드투엔드 세그멘테이션과 탐지에 CLIP을 보다 효과적으로 활용하기 위해, 사전 내(domain)와 사전 외(domain) 영역을 각각 처리할 수 있도록 이중 분류기(dual classifiers)를 제안한다. 또한, 분리된 프롬프트 학습을 통해 텍스트 인코더를 물체 및 스태프 카테고리 모두에 대해 영역 인식(region-aware)하도록 추가 학습함으로써, 중복되거나 품질이 낮은 예측을 효과적으로 제거할 수 있도록 하였다. 이는 엔드투엔드 세그멘테이션 및 탐지에 있어 매우 중요한 기능이다. 다양한 조건에서 여러 데이터셋을 대상으로 광범위한 실험을 수행한 결과, OpenSD는 폐쇄형 및 오픈형 보편적 설정 모두에서 최신 기술 대비 우수한 성능을 보였다. 코드는 https://github.com/strongwolf/OpenSD 에서 공개되어 있다.

OpenSD: 통합된 오픈-보라티지 세그멘테이션 및 탐지 | 최신 연구 논문 | HyperAI초신경