16일 전

CAT-Seg: 오픈-보라임 스마트 세그멘테이션을 위한 비용 집계

Seokju Cho, Heeseong Shin, Sunghwan Hong, Anurag Arnab, Paul Hongsuck Seo, Seungryong Kim
CAT-Seg: 오픈-보라임 스마트 세그멘테이션을 위한 비용 집계
초록

오픈-보라임(semantic) 세분화는 이미지 내 각 픽셀을 다양한 텍스트 설명에 기반하여 레이블링하는 도전 과제를 제시한다. 본 연구에서는 비전-언어 기반 모델, 특히 CLIP을 복잡한 세분화 작업에 적응시키기 위한 새로운 비용 기반 접근법을 제안한다. 이미지 임베딩과 텍스트 임베딩 간의 코사인 유사도 점수, 즉 비용 볼륨을 집계함으로써, 본 방법은 CLIP의 인코더를 미세 조정함으로써 이미 학습된 클래스뿐 아니라 미학습된 클래스까지도 효과적으로 세분화할 수 있도록 한다. 이는 기존 방법이 미학습 클래스를 다루는 데 직면한 문제를 해결하는 데 기여한다. 이러한 기반 위에서, 이미지와 텍스트 임베딩 간의 다중 모달성에 기반한 비용 볼륨을 효과적으로 집계하는 방법을 탐색한다. 또한 CLIP을 효율적으로 미세 조정하기 위한 다양한 방법을 검토한다.

CAT-Seg: 오픈-보라임 스마트 세그멘테이션을 위한 비용 집계 | 최신 연구 논문 | HyperAI초신경