17일 전

시간적으로 분산된 네트워크를 활용한 빠른 비디오 시맨틱 세그멘테이션

Ping Hu, Fabian Caba Heilbron, Oliver Wang, Zhe Lin, Stan Sclaroff, Federico Perazzi
시간적으로 분산된 네트워크를 활용한 빠른 비디오 시맨틱 세그멘테이션
초록

우리는 빠르고 정확한 영상 의미 분할(semantic segmentation)을 위한 시간적으로 분산된 네트워크인 TDNet을 제안한다. 우리는 깊은 CNN의 특정 고수준 레이어에서 추출된 특징은 여러 개의 더 얕은 하위 네트워크에서 추출된 특징들을 조합함으로써 근사할 수 있음을 관찰하였다. 영상 내 고유한 시간적 연속성을 활용하여, 이러한 하위 네트워크들을 연속된 프레임에 분산 배치한다. 결과적으로 각 시간 단계에서 단일 하위 네트워크로부터 하위 특징 그룹을 추출하기 위한 경량 계산만 수행하면 된다. 전체 특징은 프레임 간 기하학적 왜곡을 보상하기 위해 새로운 주의력 전파 모듈(attention propagation module)을 적용하여 재구성된다. 또한 전체 특징과 하위 특징 수준 모두에서 표현 능력을 더욱 향상시키기 위해 그룹화된 지식 증류 손실(grouped knowledge distillation loss)을 도입하였다. Cityscapes, CamVid, NYUD-v2에서의 실험 결과, 제안하는 방법이 기존 최고 수준의 정확도를 달성하면서도 훨씬 빠른 속도와 낮은 지연(latency)을 제공함을 보여주었다.