17일 전

프레임별 추론을 활용한 효율적인 의미 영상 세그멘테이션

Yifan Liu, Chunhua Shen, Changqian Yu, Jingdong Wang
프레임별 추론을 활용한 효율적인 의미 영상 세그멘테이션
초록

세분화를 위한 기존의 대부분 실시간 딥 모델은 각 프레임을 독립적으로 학습하기 때문에 영상 시퀀스에서 일관성 없는 결과를 낼 수 있다. 고급 방법들은 영상 시퀀스 내의 상관관계를 고려하여, 광학 흐름을 활용해 결과를 인접 프레임으로 전파하거나, 다른 프레임을 기반으로 프레임 표현을 추출하는 방식을 사용한다. 그러나 이러한 접근은 정확도 저하 또는 지연 시간의 불균형을 초래할 수 있다. 본 연구에서는 추론 과정에서 각 프레임을 독립적으로 처리하는 방식으로 효율적인 시맨틱 영상 세분화를 수행한다. 기존의 프레임 단위 모델과 달리, 본 연구는 학습 과정에서 프레임 간 시간적 일관성을 추가적인 제약 조건으로 명시적으로 고려하고, 이를 세분화 네트워크에 내재화한다. 따라서 추론 과정에서는 각 프레임을 독립적으로 처리함으로써 지연 없이 처리할 수 있으며, 추가적인 계산 비용이나 후처리 없이 시간적 일관성을 향상시킬 수 있다. 실시간 실행을 위해 컴팩트한 모델을 사용하며, 컴팩트 모델과 대규모 모델 간의 성능 격차를 줄이기 위해 새로운 지식 증류 기법을 설계하였다. 제안한 방법은 Cityscapes 및 CamVid과 같은 주요 벤치마크에서 기존의 키프레임 기반 방법보다 더 우수한 정확도와 추론 속도의 균형을 달성하였다. 또한, 각 프레임을 독립적으로 학습한 대조군 기반 모델보다 시간적 일관성 측면에서 개선된 성능을 보였다. 코드는 다음 링크에서 확인할 수 있다: https://tinyurl.com/segment-video