16일 전

시각적 및 텍스트적 사전 지식을 기반으로 한 마스크 조립을 통한 소량 샘플 세그멘테이션 및 그 이상

Chen Shuai, Meng Fanman, Zhang Runtong, Qiu Heqian, Li Hongliang, Wu Qingbo, Xu Linfeng
시각적 및 텍스트적 사전 지식을 기반으로 한 마스크 조립을 통한 소량 샘플 세그멘테이션 및 그 이상
초록

소수 샘플 세그멘테이션(Few-shot segmentation, FSS)은 몇 장의 레이블링된 이미지만으로도 새로운 클래스를 세그멘테이션하는 것을 목표로 한다. CLIP 모델이 시각 정보와 텍스트 정보를 효과적으로 정렬할 수 있다는 장점을 고려할 때, CLIP을 FSS 모델에 통합함으로써 일반화 능력을 향상시킬 수 있다. 그러나 기존의 CLIP 기반 FSS 방법들은 여전히 기반 클래스(기존 클래스)에 대한 편향된 예측 문제를 겪고 있으며, 이는 클래스에 특화된 특징 수준의 상호작용에 기인한다. 이 문제를 해결하기 위해, 시각적 및 텍스트적 사전 지식을 활용한 마스크 조립 네트워크(Prior Guided Mask Assemble Network, PGMA-Net)를 제안한다. 본 방법은 클래스에 무관한 마스크 조립 과정을 도입하여 편향을 완화하고, 유사도를 기반으로 다양한 작업을 통합적인 방식으로 정의한다. 구체적으로, 클래스 관련 텍스트 및 시각적 특징은 확률 맵 형태의 클래스에 무관한 사전 지식으로 변환된다. 이후, 다수의 일반 조립 유닛(General Assemble Units, GAUs)을 포함하는 사전 지도형 마스크 조립 모듈(Prior-Guided Mask Assemble Module, PGMAM)이 도입되며, 이는 시각-텍스트 간 상호작용, 이미지 간 및 이미지 내 상호작용, 학습 없이 적용 가능한 방식, 고차원 상호작용 등 다양한 플러그 앤 플레이 가능한 상호작용을 고려한다. 마지막으로, 클래스에 무관한 능력을 보장하기 위해, 클래스 특화 정보에 의존하지 않고 조립된 마스크와 저수준 특징을 유연하게 활용할 수 있는 계층적 디코더 및 채널 드롭 메커니즘(Hierarchical Decoder with Channel-Drop Mechanism, HDCDM)을 제안한다. 제안한 PGMA-Net은 1-샷 시나리오에서 PASCAL-5^i에서 mIoU 77.6, COCO-20^i에서 mIoU 59.4의 새로운 최고 성능을 달성하였다. 또한, 추가적인 재학습 없이도 PGMA-Net이 바운딩 박스 수준의 FSS, 다중 도메인 FSS, 공세그멘테이션(co-segmentation), 제로샷 세그멘테이션(Zero-shot segmentation, ZSS) 등 다양한 작업을 해결할 수 있음을 보여주며, 어떠한 샘플 수에서도 활용 가능한 '어떤 샘플 수든 가능한 세그멘테이션 프레임워크'(any-shot segmentation framework)를 제안한다.

시각적 및 텍스트적 사전 지식을 기반으로 한 마스크 조립을 통한 소량 샘플 세그멘테이션 및 그 이상 | 최신 연구 논문 | HyperAI초신경