하이브리드 맴바를 활용한 희소 샘플 세그멘테이션

다수의 소샷 분할(FSS) 방법들은 지원(지원 샘플) 전경(FG)을 질의 특징에 융합하기 위해 교차 어텐션(cross attention)을 사용하지만, 이는 이차 복잡도(quadratic complexity)를 가진다는 단점이 있다. 최근 개발된 Mamba는 내부 시퀀스 간 의존성을 효과적으로 포착할 수 있지만, 복잡도는 선형(linear)이다. 따라서 본 연구는 FSS에서 시퀀스 간 의존성을 포착하기 위해 교차 어텐션과 유사한 Mamba 구조를 제안한다. 간단한 아이디어는 지원 특징을 스캔하면서 선택적으로 숨겨진 상태(hidden state)로 압축한 후, 이를 질의 특징을 순차적으로 스캔할 때의 초기 숨겨진 상태로 활용하는 것이다. 그러나 이 방법은 다음과 같은 두 가지 문제를 야기한다: (1) 지원 정보 소실 문제: 질의 특징을 스캔하는 과정에서 질의 특징도 점차 압축되며, 결과적으로 숨겨진 상태 내의 지원 정보가 지속적으로 감소하게 되어, 많은 질의 픽셀이 충분한 지원 정보를 융합하지 못한다. (2) 클래스 내 차이 문제: 질의 전경(FG)은 본질적으로 자신과 더 유사하며, 지원 전경(FG)보다는 자신의 특징에 더 친화적이다. 즉, 질의는 숨겨진 상태에서 자신의 특징을 우선적으로 활용하고, 지원 특징의 융합을 회피할 가능성이 있다. 그러나 FSS의 성공은 지원 정보의 효과적 활용에 달려 있다. 이러한 문제를 해결하기 위해, 우리는 하이브리드 Mamba 네트워크(HMNet)를 설계하였다. 이는 다음과 같은 두 가지 구성 요소로 이루어져 있다: (1) 지원 재확보 Mamba: 질의를 스캔하는 과정에서 주기적으로 지원 특징을 재확보하여, 숨겨진 상태가 항상 풍부한 지원 정보를 포함하도록 한다. (2) 질의 차단 Mamba: 질의 픽셀 간의 상호작용을 차단하여, 질의 특징이 숨겨진 상태로부터 더 많은 지원 특징을 융합하도록 유도한다. 이를 통해 지원 정보가 보다 효과적으로 활용되며, 최종적으로 성능이 향상된다. 제안된 HMNet은 두 개의 공개 벤치마크에서 광범위한 실험을 통해 우수한 성능을 입증하였다. 코드는 https://github.com/Sam1224/HMNet 에 공개되어 있다.