
본 논문에서는 다중 객체 예측(MOF, Multiple Object Forecasting) 문제를 소개하며, 이는 추적된 객체의 미래 경계 상자(bounding boxes)를 예측하는 것을 목표로 합니다. 기존의 객체 궤도 예측(object trajectory forecasting) 연구들이 주로 상공에서 바라보는 시점(birds-eye perspective)에서 문제를 다루는 것과 달리, 우리는 객체 수준(object-level) 관점에서 문제를 정식화하고 전체 객체 경계 상자의 예측(full object bounding boxes)을 요구합니다.이 과제 해결을 위해, 우리는 20만 개 이상의 고해상도 비디오 프레임으로 구성된 Citywalks 데이터셋을 소개합니다. Citywalks 데이터셋은 10개 유럽 국가의 21개 도시에서 다양한 날씨 조건 하에 촬영된 영상 자료와 3,500개 이상의 독특한 보행자 궤도(unique pedestrian trajectories)를 포함하고 있습니다. 평가를 위해서는 기존의 궤도 예측 방법들을 MOF에 맞게 적응시키고, 미세 조정(fine-tuning) 없이 MOT-17 데이터셋에서 크로스-데이터셋 일반화 성능(cross-dataset generalizability)을 확인하였습니다.마지막으로, STED라는 새로운 인코더-디코더 구조(encoder-decoder architecture)를 제시합니다. STED는 시각적 특성(visual features)과 시간적 특성(temporal features)을 결합하여 객체 운동(object-motion)과 자기 운동(ego-motion)을 모델링하며, 기존 MOF 접근법보다 우수한 성능을 보입니다. 코드 및 데이터셋 링크: https://github.com/olly-styles/Multiple-Object-Forecasting