
초록
의미론적 비디오 분할은 정확한 모델을 구축하기 위해 처리하고 라벨링해야 하는 막대한 양의 데이터 때문에 어려운 문제입니다. 본 논문에서는 라벨링되지 않은 데이터에 포함된 정보를 활용하여 의미론적 추정을 개선할 수 있는 깊고, 단계별로 학습 가능한 비디오 분할 방법론을 제시합니다. 제안된 모델은 컨벌루션 구조와 시공간 변환기 순환 계층을 결합하여 광학 흐름(Optical Flow)을 통해 시간적으로 라벨링 정보를 전파하며, 이는 로컬로 추정된 불확실성에 따라 적응적으로 게이팅됩니다. 광학 흐름, 인식 및 게이트 시간 전파 모듈은 단계별로 공동으로 학습될 수 있습니다. 제안된 모델의 시간적, 게이트 순환 광학 흐름 전파 구성요소는 어떤 정적인 의미론적 분할 아키텍처에도 연결되어 약간의 감독만 받는 비디오 처리 시스템으로 변환될 수 있습니다. 본 연구에서 도전적인 CityScapes 및 CamVid 데이터셋과 여러 깊은 아키텍처를 기반으로 수행한 광범위한 실험 결과, 제안된 모델은 라벨링된 프레임 외에도 라벨링되지 않은 시간 프레임을 활용하여 비디오 분할 정확도와 시간 라벨링 일관성을 향상시키며, 추가적인 주석 비용 없이 그리고 거의 추가적인 계산 없이 이를 달성할 수 있음을 보여주었습니다.