GRAtt-VIS: 자동 보정 영상 인스턴스 세그멘테이션을 위한 게이트형 잔차 주의력

최근 비디오 인스턴스 세그멘테이션(VIS) 분야의 트렌드는 긴밀하고 복잡한 비디오 시퀀스를 모델링하기 위해 온라인 방식에 점점 더 의존하고 있다. 그러나 특히 가림, 급격한 변화 등의 상황에서 발생하는 표현의 퇴화와 노이즈 누적이 온라인 방법의 주요 과제로 남아 있다. 트랜스포머 기반 쿼리 전파 방식은 이에 대한 유망한 해결 방향을 제시하고 있으나, 이는 이차적 메모리 주의(attention)를 수반하며, 앞서 언급한 문제들로 인해 인스턴스 특징의 품질 저하에 취약하며, 누적 효과(cascading effects)를 겪는다는 단점이 있다. 이러한 오류의 탐지 및 수정은 여전히 거의 탐색되지 않은 영역이다. 이를 해결하기 위해 우리는 \textbf{GRAtt-VIS}, 즉 \textbf{G}ated \textbf{R}esidual \textbf{Att}ention for \textbf{V}ideo \textbf{I}nstance \textbf{S}egmentation을 제안한다. 먼저, Gumbel-Softmax 기반 게이트를 활용하여 현재 프레임 내에서 발생할 수 있는 오류를 탐지한다. 이후, 게이트 활성화 정보를 기반으로 이전 프레임의 표현을 활용하여 저하된 특징을 보정한다. 이러한 잔차(Residual) 구조는 별도의 메모리 저장소를 필요로 하지 않으며, 지속적인 관련 인스턴스 특징 흐름을 제공한다. 둘째, 게이트 활성화를 마스크로 활용하는 새로운 인스턴스 간 상호작용 방식을 제안한다. 이 마스킹 전략은 자기 주의(self-attention) 과정에서 대표성 없는 인스턴스 쿼리를 동적으로 제한함으로써 장기 추적에 필수적인 정보를 보존한다. 본 연구에서 제안하는 게이트 잔차 연결(Gated Residual Connection)과 마스크된 자기 주의(Masked Self-Attention)의 새로운 조합을 \textbf{GRAtt} 블록이라 명명하며, 기존의 전파 기반 프레임워크에 쉽게 통합할 수 있다. 또한 GRAtt 블록은 주의 부담을 크게 줄이고 동적 시계열 모델링을 단순화한다. GRAtt-VIS는 YouTube-VIS 및 매우 도전적인 OVIS 데이터셋에서 최신 기준(SOTA) 성능을 달성하며, 기존 방법들에 비해 뚜렷한 성능 향상을 보였다. 코드는 \url{https://github.com/Tanveer81/GRAttVIS}에서 공개되어 있다.