언어 지도 영상 세그멘테이션을 위한 로컬-글로벌 컨텍스트 인지 트랜스포머

언어 지도형 영상 세그멘테이션(LVS) 작업을 탐구한다. 기존 알고리즘은 대부분 3D CNN을 활용하여 영상 표현을 학습하지만, 장기적 맥락을 포착하기 어렵고 시각-언어 불일치 문제에 쉽게 노출된다. 이러한 문제를 해결하기 위해 우리는 Locater(지역-전역 맥락 인지형 트랜스포머)를 제안한다. Locater는 유한한 메모리 구조를 트랜스포머 아키텍처에 통합하여 언어 표현을 효율적으로 전체 영상에 쿼리할 수 있도록 한다. 이 메모리는 두 가지 구성 요소로 구성된다. 하나는 영상의 전역 콘텐츠를 지속적으로 보존하는 구성 요소이고, 다른 하나는 지역적 시계열 맥락과 세그멘테이션 이력을 동적으로 수집하는 구성 요소이다. Locater는 각 프레임의 특수한 콘텐츠와 기억된 지역-전역 맥락을 기반으로, 각 프레임에 대해 적응형 쿼리 벡터로 표현을 종합적이고 유연하게 이해한다. 이 벡터는 해당 프레임에 대해 마스크 생성을 위한 쿼리로 활용된다. 또한 메모리 구조 덕분에 Locater는 선형 시간 복잡도와 일정한 크기의 메모리로 영상을 처리할 수 있으며, 트랜스포머 스타일의 자기 주목(self-attention) 연산은 시퀀스 길이에 따라 제곱 비례로 증가하는 반면, Locater는 효율적인 확장성을 갖는다. LVS 모델의 시각적 기반 능력을 철저히 평가하기 위해, 유사한 객체 간의 모호성을 해소하는 데 더 높은 도전 과제를 제시하는 A2D-S+라는 새로운 LVS 데이터셋을 기여한다. 이 데이터셋은 A2D-S 데이터셋을 기반으로 구축되었으며, 더 높은 정밀도와 복잡성을 요구한다. 세 가지 LVS 데이터셋 및 A2D-S+에서의 실험 결과, Locater는 기존 최고 성능 모델들을 모두 능가함을 확인하였다. 추가적으로, 3회차 대규모 영상 객체 세그멘테이션 챌린지의 ‘참조 영상 객체 세그멘테이션 트랙’에서 1위를 차지하였으며, 이 우승 솔루션의 기반으로 Locater가 사용되었다. 본 연구의 코드 및 데이터셋은 다음과 같은 주소에서 공개되어 있다: https://github.com/leonnnop/Locater