2달 전

계층적 오픈 보카빌러리 유니버설 이미지 세그멘테이션

Wang, Xudong ; Li, Shufan ; Kallidromitis, Konstantinos ; Kato, Yusuke ; Kozuka, Kazuki ; Darrell, Trevor
계층적 오픈 보카빌러리 유니버설 이미지 세그멘테이션
초록

오픈 보카브러리 이미지 세그멘테이션은 임의의 텍스트 설명에 따라 이미지를 의미 영역으로 분할하는 것을 목표로 합니다. 그러나 복잡한 시각적 장면은 자연스럽게 더 단순한 부분으로 분해되고 여러 수준의 세분화도 추상화될 수 있어, 이는 본질적인 세그멘테이션 모호성을 초래합니다. 기존 방법들이 일반적으로 이러한 모호성을 회피하고 외부 요인으로 취급하는 것과 달리, 우리의 접근 방식은 학습 과정에 다양한 의미 수준을 포함하는 계층적 표현을 적극적으로 통합합니다. 우리는 "사물"과 "물질"을 위한 분리된 텍스트-이미지 융합 메커니즘과 표현 학습 모듈을 제안합니다. 또한, 이러한 범주 간의 텍스트 및 시각적 특성 차이를 체계적으로 검토하였습니다. 우리의 결과 모델인 HIPIE(Hierarchical, Open-vocabulary, and Universal Image Segmentation)는 통합된 프레임워크 내에서 계층적, 오픈 보카브러리, 그리고 유니버설 세그멘테이션 작업을 처리합니다. 40개 이상의 데이터셋(ADE20K, COCO, Pascal-VOC 파트, RefCOCO/RefCOCOg, ODinW 및 SeginW 등)에서 벤치마킹된 결과, HIPIE는 의미 수준(예: 의미 세그멘테이션), 인스턴스 수준(예: 팬오프틱/참조 세그멘테이션 및 객체 탐지), 그리고 부품 수준(예: 부품/서브파트 세그멘테이션) 작업에서 다양한 이미지 이해 수준에서 최신 성능을 달성하였습니다. 우리의 코드는 https://github.com/berkeley-hipie/HIPIE 에서 제공됩니다.

계층적 오픈 보카빌러리 유니버설 이미지 세그멘테이션 | 최신 연구 논문 | HyperAI초신경