2달 전

FreeSeg: 통합적, 보편적 및 개방형 어휘 이미지 세그멘테이션

Jie Qin; Jie Wu; Pengxiang Yan; Ming Li; Ren Yuxi; Xuefeng Xiao; Yitong Wang; Rui Wang; Shilei Wen; Xin Pan; Xingang Wang
FreeSeg: 통합적, 보편적 및 개방형 어휘 이미지 세그멘테이션
초록

최근, 오픈-어휘 학습(open-vocabulary learning)이 텍스트 기반 설명의 임의 범주에 대한 분할을 달성하여, 분할 시스템을 더욱 일반적인 용도의 응용 시나리오로 확대시키는 데 기여하고 있습니다. 그러나 기존 방법들은 특정 분할 작업을 위해 전문적인 아키텍처나 매개변수를 설계하는 데 중점을 두고 있습니다. 이러한 맞춤형 설계 패러다임은 다양한 분할 작업 간의 단편화를 초래하여, 분할 모델의 일관성을 저해합니다. 따라서 본 논문에서는 통합적이고 보편적이며 오픈-어휘 이미지 분할(Unified, Universal and Open-Vocabulary Image Segmentation)을 달성하기 위한 일반적인 프레임워크인 FreeSeg를 제안합니다. FreeSeg는 원샷 학습(one-shot training)을 통해 모든 것을 하나로 통합한 네트워크를 최적화하며, 추론 과정에서 동일한 아키텍처와 매개변수를 사용하여 다양한 분할 작업을 원활하게 처리합니다. 또한, 적응형 프롬프트 학습(adaptive prompt learning)은 통합된 모델이 작업 인식(task-aware) 및 범주 감응(category-sensitive) 개념을 포착하도록 돕습니다. 이는 다중 작업 및 다양한 시나리오에서 모델의 견고성을 개선하는 역할을 합니다. 광범위한 실험 결과는 FreeSeg가 세 가지 분할 작업에서 성능과 일반화 측면에서 새로운 최고 수준의 결과를 창출함을 입증하며, COCO 데이터셋에서 미확인 클래스에 대한 의미론적 분할(semantic segmentation)에서 5.5% mIoU, 인스턴스 분할(instance segmentation)에서 17.6% mAP, 파노피틱 분할(panoptic segmentation)에서 20.1% PQ로 가장 우수한 태스크 특화 아키텍처들을 크게 능가하는 것으로 나타났습니다.

FreeSeg: 통합적, 보편적 및 개방형 어휘 이미지 세그멘테이션 | 최신 연구 논문 | HyperAI초신경