PosSAM: Panoptic Open-vocabulary Segment Anything 포스샘: 팬옵틱 오픈-보카ulary 세그먼트 어니싱

본 논문에서는 오픈 보카블러리 팬오라믹 세그멘테이션 모델인 PosSAM을 소개합니다. 이 모델은 Segment Anything Model(SAM)의 장점과 비전-언어 CLIP 모델의 장점을 단일 프레임워크에서 효과적으로 통합합니다. SAM은 공간 인식 마스크 생성에 뛰어나지만, 디코더는 객체 클래스 정보를 인식하는 데 한계가 있으며 추가적인 안내 없이는 과세그멘테이션이 발생하기 쉽습니다. 기존 접근 방식은 이러한 제한을 다단계 기술을 사용하고 별도의 모델로 바운딩 박스나 세그멘테이션 마스크와 같은 클래스 인식 프롬프트를 생성하여 해결합니다. 본 연구에서 제안하는 PosSAM은 단일 프레임워크로, SAM의 공간적으로 풍부한 특성을 활용하여 인스턴스 인식 마스크를 생성하고, CLIP의 의미론적 구분력 있는 특성을 활용하여 효과적인 인스턴스 분류를 수행합니다. 특히, SAM의 제한 사항을 해결하기 위해 클래스 무관 SAM과 클래스 인식 CLIP 특성을 활용한 새로운 Local Discriminative Pooling(LDP) 모듈을 제안합니다. 이를 통해 편향되지 않은 오픈 보카블러리 분류를 실현할 수 있습니다. 또한, 각 이미지 추론 시 생성된 마스크의 품질을 적응적으로 개선하고 오픈 보카블러리 분류 성능을 향상시키기 위한 Mask-Aware Selective Ensembling(MASE) 알고리즘을 도입하였습니다. 우리는 다양한 데이터셋에서 본 방법론의 강력한 일반화 능력을 입증하기 위해 광범위한 실험을 수행하였으며, SOTA 오픈 보카블러리 팬오라믹 세그멘테이션 방법론 대비 크게 개선된 성능으로 최고 수준의 결과를 달성하였습니다. COCO에서 ADE20K와 ADE20K에서 COCO 설정 모두에서 PosSAM은 이전 최고 수준 방법론보다 각각 2.4 PQ와 4.6 PQ로 큰 차이를 보였습니다. 프로젝트 웹사이트: https://vibashan.github.io/possam-web/.