7일 전

오픈-보라티지 세그멘테이션 및 탐지를 위한 간단한 프레임워크

Hao Zhang, Feng Li, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianfeng Gao, Jianwei Yang, Lei Zhang
오픈-보라티지 세그멘테이션 및 탐지를 위한 간단한 프레임워크
초록

우리는 다양한 세그멘테이션 및 탐지 데이터셋으로부터 공동 학습할 수 있는 간단한 오픈-보라지(Open-vocabulary) 세그멘테이션 및 탐지 프레임워크인 OpenSeeD를 제안한다. 어노테이션의 어휘 및 세부 수준 차이를 극복하기 위해, 먼저 두 작업에서 모두 사용 가능한 시각적 개념을 인코딩할 수 있도록 사전 학습된 텍스트 인코더를 도입하고, 이를 통해 공통된 의미 공간을 학습한다. 이로 인해 단일 세그멘테이션 작업에만 훈련된 대안 대비 합리적으로 우수한 성능을 달성할 수 있다. 이를 더욱 개선하기 위해 두 가지 불일치를 식별한다: $i$) 작업 불일치 — 세그멘테이션은 전경 객체뿐만 아니라 배경 스태프(stuff)에 대한 마스크 추출이 필요하지만, 탐지 작업은 전경 객체에만 관심이 있다; $ii$) 데이터 불일치 — 박스 및 마스크 어노테이션은 서로 다른 공간적 세부 수준을 가지며, 따라서 직접 교환할 수 없다. 이러한 문제를 해결하기 위해, 전경/배경 간 간섭을 줄이기 위한 분리된 디코딩과 주어진 박스에 대한 마스크 생성을 지원하는 조건부 마스크 디코딩을 제안한다. 이를 위해 세 가지 기술을 통합한 간단한 인코더-디코더 모델을 개발하였으며, COCO와 Objects365에서 공동으로 훈련하였다. 사전 학습 후, 본 모델은 세그멘테이션과 탐지 모두에서 경쟁력 있거나 더 강한 제로샷 전이 성능을 보였다. 구체적으로, OpenSeeD는 5개 데이터셋에서 오픈-보라지 인스턴스 및 팔레틱 세그멘테이션의 최신 기술을 초월하였으며, 유사한 설정 하에서 LVIS와 ODinW에서 오픈-보라지 탐지에서도 기존 작업을 능가하였다. 특정 작업으로 전이되었을 때, 본 모델은 COCO와 ADE20K에서 팔레틱 세그멘테이션, ADE20K 및 Cityscapes에서 인스턴스 세그멘테이션에서 새로운 최고 성능(SoTA)을 달성하였다. 마지막으로, OpenSeeD는 세그멘테이션과 탐지 작업을 공동으로 훈련하는 잠재력을 처음으로 탐구한 모델이며, 오픈 월드에서 두 작업을 위한 단일 모델 개발을 위한 강력한 베이스라인으로 주목받기를 기대한다.

오픈-보라티지 세그멘테이션 및 탐지를 위한 간단한 프레임워크 | 최신 연구 논문 | HyperAI초신경