프레임 간 통신 트랜스포머를 활용한 비디오 인스턴스 세그멘테이션

우리는 트랜스포머 기반의 새로운 엔드투엔드 비디오 인스턴스 세그멘테이션(VIS) 솔루션을 제안한다. 최근, 단일 프레임 기반 방법에 비해 다중 프레임에서 얻는 풍부한 정보를 활용함으로써 더 우수한 성능을 보이는 클립 단위(Per-clip) 파이프라인의 연구가 활발히 진행되고 있다. 그러나 기존의 클립 단위 모델은 프레임 간 통신을 달성하기 위해 높은 계산량과 메모리 사용량을 요구하여 실용성에 한계가 있었다. 본 연구에서는 프레임 간 정보 전달에 필요한 오버헤드를 효율적으로 줄이는 '프레임 간 통신 트랜스포머(Inter-frame Communication Transformers, IFC)'를 제안한다. 구체적으로, 입력 클립 내부의 맥락을 효과적으로 인코딩함으로써 프레임 간 정보 전달의 비용을 크게 감소시킨다. 특히, 각 프레임의 장면을 요약하고 정보를 전달하는 역할을 하는 간결한 메모리 토큰(Concise Memory Tokens)을 도입한다. 각 프레임의 특징은 정밀하게 인코딩된 메모리 토큰 간의 정보 교환을 통해 풍부해지고, 다른 프레임과 상관관계를 형성하게 된다. 제안한 방법은 최신 벤치마크 세트에서 검증되었으며, 오프라인 추론 기준으로 YouTube-VIS 2019 검증 세트에서 AP 44.6의 최고 성능을 달성하였고, 동시에 매우 빠른 실행 속도(89.4 FPS)를 보였다. 또한, 실시간 비디오 처리가 가능한 근접 온라인 추론(Near-online inference)에도 적용 가능하며, 소량의 지연만으로도 실시간 처리가 가능하다. 코드는 공개될 예정이다.