MemorySAM: Segment Anything Model을 활용한 다중 모달리티 및 의미 정보의 기억화를 통한 다중 모달 세그멘테이션

연구는 다양한 센서에 의해 캡처된 다중 시각 모달리티로부터 픽셀 단위 예측을 도출하는 다중 모달 세그멘테이션(Multi-Modal Semantic Segmentation, MMSS)에 집중해 왔다. 최근, 대규모 비전 모델인 Segment Anything Model 2(SAM2)는 이미지 및 영상 모두에서 강력한 제로샷 세그멘테이션 성능을 보여주었다. SAM2를 MMSS에 확장할 경우 두 가지 문제점이 발생한다: 1) SAM2는 어떻게 다중 모달 데이터에 적응할 수 있는가? 2) SAM2는 어떻게 더 나은 의미적 이해를 할 수 있는가? 영상 내 프레임 간의 상관관계에 착안하여, 우리는 다중 모달 데이터를 동일한 장면을 나타내는 프레임 시퀀스로 간주하는 아이디어를 제안한다. 본 연구의 핵심은 모달리티에 무관한 정보와 타겟 장면과 관련된 의미 정보를 ‘기억’하는 것이다. 이를 달성하기 위해, SAM2의 메모리 메커니즘을 다중 모달 데이터에 적용하여 모달리티에 무관한 특징을 추출한다. 한편, 의미 지식을 ‘기억’하기 위해 학습 전용의 의미 프로토타입 메모리 모듈(Semantic Prototype Memory Module, SPMM)을 제안한다. 이 모듈은 학습 과정 전반에 걸쳐 카테고리 수준의 프로토타입을 저장함으로써 SAM2가 인스턴스 세그멘테이션에서 의미 세그멘테이션으로의 전이를 촉진한다. 전역 프로토타입과 국부 프로토타입 사이에 반복적으로 프로토타입 적응 손실(prototypical adaptation loss)을 도입하여 SAM2의 의미 이해를 정렬하고 개선한다. 광범위한 실험 결과는 제안하는 MemorySAM이 합성 및 실세계 벤치마크 모두에서 기존 최고 수준(SoTA) 방법들을 크게 능가함을 입증한다(DELIVER에서 65.38%, MCubeS에서 52.88%). 소스 코드는 공개될 예정이다.