공간적 특징 보정과 시계열 융합을 통한 효율적인 단계별 비디오 인스턴스 세그멘테이션

최근의 단계별 영상 인스턴스 세그멘테이션 네트워크는 두 가지 한계를 겪고 있다. 첫째, 컨볼루션 특징은 앵커 박스와 진짜 바운딩 박스(ground-truth bounding boxes)와 정렬되지 않아 공간적 위치에 대한 마스크 민감도가 저하된다. 둘째, 영상이 프레임 단위로 직접 분할되어 프레임 수준의 인스턴스 세그멘테이션을 수행함에 있어 인접 프레임 간의 시계열적 상관관계를 무시한다. 이러한 문제를 해결하기 위해, 공간 보정(spatial calibration)과 시계열 융합(temporal fusion)을 통해 간단하면서도 효과적인 단계별 영상 인스턴스 세그멘테이션 프레임워크인 STMask를 제안한다. 진짜 바운딩 박스와의 공간적 특징 보정을 보장하기 위해, 먼저 진짜 바운딩 박스 주변에서 회귀된 바운딩 박스를 예측하고, 이를 기반으로 특징을 추출하여 프레임 수준의 인스턴스 세그멘테이션을 수행한다. 또한 영상 프레임 간의 시계열적 상관관계를 보다 깊이 탐색하기 위해, 시간적 융합 모듈(temporal fusion module)을 도입하여 각 프레임의 인스턴스 마스크를 인접 프레임에 전파함으로써, 운동 왜곡, 부분적 가림, 카메라 대 객체의 비정상적인 자세 등 도전적인 상황에서도 효과적으로 처리할 수 있도록 한다. YouTube-VIS 검증 세트에서의 실험 결과, ResNet-50 및 ResNet-101 기반의 STMask는 각각 33.5%, 36.8%의 마스크 AP(mask AP) 성능을 달성하면서도 영상 인스턴스 세그멘테이션에서 각각 28.6 FPS 및 23.4 FPS의 처리 속도를 기록하였다. 코드는 공개되어 있으며, 다음 링크에서 확인 가능하다: https://github.com/MinghanLi/STMask.