
초록
비디오 시맨틱 세그멘테이션은 영상 시퀀스 내 프레임 간의 복잡한 시계적 관계를 활용해야 한다. 기존의 방법들은 정확한 광학 흐름(optical flow)을 이용하여 시계적 관계를 활용하나, 이는 높은 계산 비용으로 인해 한계가 있다. 본 논문에서는 광학 흐름 예측을 전수적으로 수행하지 않고도 자기 주의 메커니즘(self-attention mechanism)을 기반으로 영상 시퀀스 전체에 걸쳐 장거리 시계적 관계를 적응적으로 통합할 수 있는 시간 메모리 주의망(Temporal Memory Attention Network, TMANet)을 제안한다. 특히, 현재 프레임의 시계적 정보를 저장하기 위해 여러 이전 프레임을 사용하여 메모리를 구성한다. 이후 현재 프레임과 메모리 간의 관계를 포착하여 현재 프레임의 표현력을 강화하기 위한 시간 메모리 주의 모듈(temporal memory attention module)을 제안한다. 제안한 방법은 두 가지 도전적인 비디오 시맨틱 세그멘테이션 데이터셋에서 최신 기준 성능을 달성하였으며, ResNet-50 기반으로 Cityscapes에서 80.3%의 mIoU, CamVid에서 76.5%의 mIoU를 기록하였다.