2달 전

Mask-Adapter: 오픈-어휘 분할을 위한 마스크의 중요성

Yongkang Li; Tianheng Cheng; Bin Feng; Wenyu Liu; Xinggang Wang
Mask-Adapter: 오픈-어휘 분할을 위한 마스크의 중요성
초록

최근의 오픈 보카브러리 분할 방법들은 마스크 생성기를 사용하여 분할 마스크를 예측하고, CLIP과 같은 사전 학습된 시각-언어 모델을 통해 마스크 풀링(mask pooling)을 이용하여 이러한 마스크들을 분류합니다. 이러한 접근법들이 유망한 결과를 보여주지만, 마스크 영역 내에서 CLIP 이미지 임베딩을 풀링(pooling)함으로써 정확한 마스크가 종종 정확한 분류 결과를 얻지 못하는 것은 역설적입니다. 본 논문에서는 마스크 풀링의 성능 한계를 밝히고, 이러한 도전 과제들을 해결하기 위한 간단하면서도 효과적인 방법인 Mask-Adapter를 소개합니다. 제안된 Mask-Adapter는 제안(proposal) 마스크를 직접 사용하는 것에 비해, 제안 마스크들로부터 의미론적 활성화 맵(semantic activation maps)을 추출하여 더 풍부한 문맥 정보를 제공하며, 마스크와 CLIP 간의 일치성을 보장합니다. 또한, 우리는 유사한 IoU(IoU: Intersection over Union) 값을 가진 제안 마스크들이 유사한 CLIP 임베딩을 얻도록 하는 마스크 일관성 손실(mask consistency loss)을 제안하여, 다양한 예측된 마스크에 대한 모델의 견고성을 강화합니다. Mask-Adapter는 플러그 앤드 플레이(plug-and-play) 방식으로 마스크 풀링 기반의 오픈 보카브러리 분할 방법들에 원활하게 통합되며, 더 정확한 분류 결과를 제공합니다. 여러 지로 샷(zero-shot) 벤치마크에 걸친 광범위한 실험들은 기존의 잘 알려진 방법들에서 제안된 Mask-Adapter가 상당한 성능 개선을 가져왔음을 입증합니다. 특히, Mask-Adapter는 SAM(Segment Anything Model)에도 효과적으로 확장되어 여러 오픈 보카브러리 분할 데이터셋에서 인상적인 결과를 달성하였습니다. 코드와 모델은 https://github.com/hustvl/MaskAdapter에서 확인 가능합니다.

Mask-Adapter: 오픈-어휘 분할을 위한 마스크의 중요성 | 최신 연구 논문 | HyperAI초신경