브릿지 더 포인츠: 그래프 기반 소수 샘플 세그먼테이션 어니어티 세미틱스

최근 대규모 사전 학습 기술의 발전은 시각 기반 모델의 능력을 크게 향상시켰으며, 특히 점과 박스 프롬프트를 기반으로 정밀한 마스크를 생성할 수 있는 '세그먼트 애니웨어 모델(Segment Anything Model, SAM)'이 두드러진 사례이다. 최근 연구들은 SAM을 소수 샘플 세그멘테이션(Few-shot Semantic Segmentation, FSS)에 확장하여, SAM 기반 자동 세그멘테이션을 위한 프롬프트 생성에 초점을 맞추고 있다. 그러나 이러한 기법들은 적절한 프롬프트를 선택하는 데 어려움을 겪으며, 다양한 시나리오에 따라 특정 하이퍼파라미터 설정이 필요하고, SAM의 과도한 사용으로 인해 단일 샘플 추론 시간이 길어져 효율성이 낮고 자동화 능력이 제한된다. 이러한 문제를 해결하기 위해 우리는 그래프 분석 기반의 간단하면서도 효과적인 접근법을 제안한다. 구체적으로, 긍정-부정 정렬(Positive-Negative Alignment) 모듈은 마스크 생성을 위한 점 프롬프트를 동적으로 선택하며, 특히 배경 컨텍스트를 부정 참조(negative reference)로 활용할 잠재력을 드러낸다. 이후, 점-마스크 클러스터링(Point-Mask Clustering) 모듈은 마스크가 점을 얼마나 커버하는지를 기반으로 마스크와 선택된 점의 세부 수준을 방향성 그래프로 정렬한다. 이 점들은 방향성 그래프의 약한 연결 성분을 효율적으로 분해함으로써 집계되며, 자연스러운 고유 클러스터를 형성한다. 마지막으로, 그래프 기반의 세부 수준 정렬의 이점을 활용한 긍정 및 과도한 가중치 게이팅(positive and overshooting gating)은 신뢰도가 높은 마스크를 집계하고, 오진 마스크를 필터링하여 최종 예측을 수행함으로써 추가적인 하이퍼파라미터 사용과 불필요한 마스크 생성을 줄인다. 다양한 표준 FSS, 단일 샘플 파트 세그멘테이션, 그리고 다영역 FSS 데이터셋을 대상으로 한 광범위한 실험 분석을 통해 제안된 방법의 효과성과 효율성을 입증하였으며, COCO-20i에서 mIoU 58.7%, LVIS-92i에서 35.2%로 최신 일반화 모델들을 능가하였다. 코드는 https://andyzaq.github.io/GF-SAM/ 에 공개되어 있다.