
초록
장기적인 비디오에서의 미래 예측은 현재 및 과거 관측치로부터의 추론을 필요로 한다. 본 연구에서는 시간적 범위, 확장성, 의미적 추상화 수준이라는 세 가지 측면을 고려하여 유연한 다중 크기 시간 집계(flexible multi-granular temporal aggregation) 프레임워크를 제안한다. 우리는 최대 풀링(max-pooling)과 어텐션(attention)과 같은 간단한 기법을 활용함으로써 다음 행동 예측과 밀도 높은 예측(dense anticipation) 모두에서 최신 기술(SOTA) 수준의 성능을 달성할 수 있음을 보여준다. 제안한 모델의 예측 능력을 검증하기 위해 Breakfast, 50Salads, EPIC-Kitchens 데이터셋에서 실험을 수행하였으며, 모두 최신 기술 수준의 결과를 달성하였다. 본 모델은 최소한의 수정만으로 비디오 세그멘테이션(video segmentation) 및 행동 인식(action recognition) 작업에도 쉽게 확장 가능하다.