
인간의 행동을 예측하는 문제는 본질적으로 불확실한 성격을 지닌다. 그러나 행동을 취하는 주체가 추구하고자 하는 목표에 대한 정보를 갖는다면, 이러한 불확실성을 줄일 수 있다. 본 연구에서는 미래 행동 예측의 불확실성을 줄이기 위해 목표 정보를 활용하는 행동 예측 모델을 제안한다. 추론 단계에서는 목표 정보나 관측된 행동에 대한 정보를 갖지 못하므로, 행동과 목표에 대한 정보를 통합적으로 표현하기 위해 시각적 표현(visual representation)을 활용한다. 이를 통해 행동 예측을 위한 새로운 개념인 '추상적 목표(abstract goal)'를 도입한다. 추상적 목표는 관측된 시각적 특징 시퀀스에 조건부로 정의되며, 변분 순환 네트워크(variational recurrent network)를 사용하여 그 분포의 매개변수를 추정한다. 이후 다음 행동에 대한 여러 후보를 샘플링하고, 추상적 목표와의 일관성(coherence)을 측정하는 기준을 도입하여 가장 적합한 후보를 선정한다. 제안된 방법은 매우 도전적인 Epic-Kitchens55(EK55), EK100, EGTEA Gaze+ 데이터셋에서 뛰어난 성능을 보였다. 특히 EK55의 관측된 주방(Seen kitchens, S1)에 대해, Top-1 동사 정확도에서는 +13.69, Top-1 명사 정확도에서는 +11.24, Top-1 행동 예측 정확도에서는 +5.19의 절대적 개선을 기록하여 기존 최고 성능 방법보다 뚜렷한 향상을 보였다. 동일한 트렌드는 관측되지 않은 주방(Unseen kitchens, S2)에서도 확인되었으며, Top-1 동사 예측(+10.75), 명사 예측(+5.84), 행동 예측(+2.87) 모두에서 유의미한 개선을 달성하였다. EGTEA Gaze+ 데이터셋에서도 유사한 결과를 얻었으며, 명사 예측(+9.9), 동사 예측(+13.1), 행동 예측(+6.8) 각각에 대해 절대적 개선이 이루어졌다. 본 논문 제출을 통해 제안된 방법은 EK55 및 EGTEA Gaze+에서 행동 예측 분야의 새로운 최고 성능 기준(SOTA)을 달성하고 있다. 결과는 다음과 같은 링크에서 확인 가능하다: https://competitions.codalab.org/competitions/20071#results 코드는 GitHub에서 제공된다: https://github.com/debadityaroy/Abstract_Goal