11일 전

MVP-SEG: 오픈-보라티지 세그멘테이션을 위한 다중 뷰 프롬프트 학습

Jie Guo, Qimeng Wang, Yan Gao, Xiaolong Jiang, Xu Tang, Yao Hu, Baochang Zhang
MVP-SEG: 오픈-보라티지 세그멘테이션을 위한 다중 뷰 프롬프트 학습
초록

CLIP(대비형 언어-이미지 사전학습)은 개방형 사전의 영역에서 영상 수준의 제로샷 인식에 있어 잘 발전된 기술이지만, 픽셀 수준의 작업에 대한 응용은 여전히 탐구가 부족한 분야이며, 대부분의 연구들은 CLIP 특징을 직접 활용할 뿐 세심한 적응 과정을 거치지 않는다. 본 연구에서는 먼저 이미지-픽셀 수준의 CLIP 특징 적응의 필요성을 입증한 후, 개방형 사전의 의미 분할을 해결하기 위한 효과적인 솔루션으로 다중 시점 프롬프트 학습(Multi-View Prompt learning, MVP-SEG)을 제안한다. 구체적으로, MVP-SEG는 우리가 제안한 직교 제약 손실(Orthogonal Constraint Loss, OCLoss)에 의해 훈련된 다수의 프롬프트를 의도적으로 학습함으로써, 각 프롬프트가 CLIP 특징을 서로 다른 객체 부분에 대해 효율적으로 활용하도록 감독한다. 또한, 모든 프롬프트가 공동으로 생성하는 분할 마스크는 보다 우수한 분할 성능을 도모한다. 더불어 MVP-SEG는 계층별 분할 노이즈를 추가로 제거하기 위해 전역 프롬프트 정제(Global Prompt Refining, GPR)를 도입한다. 실험 결과, 학습된 다중 시점 프롬프트가 알려진 카테고리에서 추출되었음에도 불구하고, 미지의 카테고리로의 일반화 능력이 뛰어나며, 지식 전이 단계를 포함한 MVP-SEG+는 여러 벤치마크에서 기존 방법들을 상회하는 성능을 보였다. 또한 정성적 결과를 통해 MVP-SEG가 다양한 국소적 부분에 더 효과적으로 집중함을 확인할 수 있었다.

MVP-SEG: 오픈-보라티지 세그멘테이션을 위한 다중 뷰 프롬프트 학습 | 최신 연구 논문 | HyperAI초신경