2달 전
오픈-보카브러리 팬오프틱 세그멘테이션과 텍스트-이미지 확산 모델
Jiarui Xu; Sifei Liu; Arash Vahdat; Wonmin Byeon; Xiaolong Wang; Shalini De Mello

초록
우리는 ODISE: 오픈-어휘 기반 확산 모델을 활용한 팬오라믹 세그멘테이션을 소개합니다. 이 모델은 사전 학습된 텍스트-이미지 확산 모델과 판별 모델을 통합하여 오픈-어휘 팬오라믹 세그멘테이션을 수행합니다. 텍스트-이미지 확산 모델은 다양한 오픈-어휘 언어 설명으로 고품질 이미지를 생성하는 뛰어난 능력을 가지고 있습니다. 이는 해당 모델의 내부 표현 공간이 실제 세계의 오픈 개념과 높은 상관관계를 가짐을 보여줍니다. 반면에 CLIP 같은 텍스트-이미지 판별 모델은 이미지를 오픈-어휘 라벨로 분류하는 데 우수합니다. 우리는 이러한 두 모델의 동결된 내부 표현을 활용하여 자연 환경에서 어떤 범주도 팬오라믹 세그멘테이션할 수 있습니다.우리의 접근 방식은 오픈-어휘 팬오라믹 세그멘테이션 및 의미론적 세그멘테이션 작업에서 이전 최신 연구보다 크게 우수한 성능을 보입니다. 특히 COCO 데이터셋만으로 학습한 경우, ADE20K 데이터셋에서 23.4 PQ와 30.0 mIoU를 달성하며, 이는 이전 최신 연구 대비 각각 8.3 PQ와 7.9 mIoU 점수에서 절대적인 개선을 나타냅니다. 우리는 코드와 모델을 오픈 소스로 공개하며, 관련 정보는 https://github.com/NVlabs/ODISE 에서 확인할 수 있습니다.