9일 전
의미론적 지도 하에 의한 행동 예측을 위한 표현 학습
Anxhelo Diko, Danilo Avola, Bardh Prenkaj, Federico Fontana, Luigi Cinque

초록
행동 예측은 부분적으로 관측된 사건 시퀀스로부터 미래의 행동을 예측하는 작업이다. 그러나 이 작업은 내재적인 미래 불확실성과 상호연결된 행동에 대한 추론의 어려움에 노출되어 있다. 기존 연구들이 보다 정교한 시각적 및 시간적 정보를 외삽하는 데 초점을 맞추는 반면, 우리는 원형 행동 패턴과 맥락적 동시 발생을 기반으로 행동 간 의미적 연결성을 인지하는 행동 표현을 학습하는 데 주목한다. 이를 위해 우리는 새로운 의미 지도형 표현 학습(Semantically Guided Representation Learning, S-GEAR) 프레임워크를 제안한다. S-GEAR는 시각적 행동 원형(visual action prototypes)을 학습하고 언어 모델을 활용하여 그들의 관계를 구조화함으로써 의미성을 유도한다. S-GEAR의 효과성을 검증하기 위해 네 가지 행동 예측 벤치마크에서 실험을 수행한 결과, 기존 방법들에 비해 개선된 성능을 보였다. 각각 Epic-Kitchen 55, EGTEA Gaze+ 및 50 Salads에서 Top-1 정확도는 +3.5, +2.7, +3.5 점 상승했으며, Epic-Kitchens 100에서 Top-5 재현율은 +0.8 점 향상되었다. 또한 S-GEAR가 언어에서 시각적 원형으로 행동 간 기하학적 관계를 효과적으로 전이함을 관찰하였다. 마지막으로, S-GEAR는 행동의 의미적 상호 연결성의 복잡한 영향을 보여줌으로써 예측 작업 분야에 새로운 연구 방향을 제시하였다.