2달 전

비디오에서 시선 추적을 통한 인간-물체 상호작용 예측

Ni, Zhifan ; Mascaró, Esteve Valls ; Ahn, Hyemin ; Lee, Dongheui
비디오에서 시선 추적을 통한 인간-물체 상호작용 예측
초록

비디오에서 인간-물체 상호작용(HOIs)을 이해하는 것은 시각적 장면을 완전히 파악하기 위해 필수적입니다. 이 연구 분야는 이미지에서 HOIs를 감지하는 것과 최근에는 비디오에서 HOIs를 감지하는 것으로 다루어져 왔습니다. 그러나 제3자 시점에서의 비디오 기반 HOI 예측 작업은 아직 충분히 연구되지 않았습니다. 본 논문에서는 현재의 HOIs를 감지하고 미래의 HOIs를 예측하기 위한 프레임워크를 설계하였습니다. 우리는 사람들이 물체와 상호작용하기 전에 그 물체에 집중하는 경향이 있으므로, 인간의 시선 정보를 활용할 것을 제안합니다. 이러한 시선 특성과 장면 맥락, 인간-물체 쌍의 시각적 표현은 공간-시간 트랜스포머(spatio-temporal transformer)를 통해 융합됩니다. 다중 인물 시나리오에서의 HOI 예측 작업을 평가하기 위해, 우리는 개인별로 적용 가능한 다중 라벨 메트릭(person-wise multi-label metrics) 세트를 제안합니다. 우리의 모델은 일상 생활을 담고 있는 비디오들을 포함하며 현재까지 가장 큰 비디오 HOI 데이터셋인 VidHOI 데이터셋에서 훈련 및 검증되었습니다. HOI 감지 작업에서 실험 결과, 우리의 접근법이 기준 모델보다 36.3% 상대적으로 크게 개선됨을 보여주었습니다. 또한, 공간-시간 트랜스포머에 대한 우리의 수정 및 확장의 효과성을 입증하기 위해 광범위한 아블레이션 연구(ablation study)를 수행하였습니다. 우리의 코드는 https://github.com/nizhf/hoi-prediction-gaze-transformer 에서 공개적으로 이용 가능합니다.

비디오에서 시선 추적을 통한 인간-물체 상호작용 예측 | 최신 연구 논문 | HyperAI초신경