9일 전

MSPred: 계층적 순환 네트워크를 활용한 다중 시공간 규모에서의 비디오 예측

Angel Villar-Corrales, Ani Karapetyan, Andreas Boltres, Sven Behnke
MSPred: 계층적 순환 네트워크를 활용한 다중 시공간 규모에서의 비디오 예측
초록

자율 시스템은 현재 환경을 이해하는 것 외에도, 과거 상태에 조건부한 미래 행동을 예측할 수 있어야 한다. 예를 들어, 캡처된 카메라 프레임을 기반으로 한 예측이 가능해야 한다. 그러나 기존 모델은 주로 단기적인 시간 간격에 대한 미래 영상 프레임 예측에 집중하고 있어, 장기적인 행동 계획에 있어서는 제한적인 활용도를 지닌다. 본 연구에서는 다양한 공간-시간 스케일에서 서로 다른 정밀도 수준의 미래 가능 결과를 동시에 예측할 수 있는 새로운 영상 예측 모델인 다중 규모 계층적 예측(Multi-Scale Hierarchical Prediction, MSPred)을 제안한다. MSPred는 공간적 및 시간적 다운샘플링을 결합함으로써, 장기적인 시간 간격에 걸쳐 인간의 자세나 위치와 같은 추상적 표현을 효율적으로 예측할 수 있으며, 동시에 영상 프레임 예측 성능에서도 경쟁력을 유지한다. 실험을 통해 MSPred가 박스에서 물체를 집는(bin-picking) 및 행동 인식(action recognition) 데이터셋에서 미래 영상 프레임뿐 아니라 고수준 표현(예: 키포인트 또는 의미 정보)을 정확히 예측함과 동시에 기존의 주요 접근법들보다 일관되게 우수한 성능을 보임을 입증하였다. 또한 MSPred의 다양한 모듈 및 설계 선택 사항에 대해 아블레이션(모듈 분석)을 수행하여, 공간적 및 시간적 정밀도의 다양한 특징을 통합함이 더 뛰어난 성능을 제공함을 실험적으로 검증하였다. 본 연구의 실험을 재현하기 위한 코드 및 모델은 https://github.com/AIS-Bonn/MSPred 에서 확인할 수 있다.