2달 전
ST-HOI: 비디오에서 인간-물체 상호작용 검출을 위한 공간-시간 베이스라인
Chiou, Meng-Jiun ; Liao, Chun-Yu ; Wang, Li-Wei ; Zimmermann, Roger ; Feng, Jiashi

초록
사람-물체 상호작용(Human-Object Interaction, HOI)을 감지는 기계의 포괄적인 시각적 이해를 향한 중요한 단계입니다. 정적 이미지에서 비시계적(non-temporal) HOI(예: 의자에 앉아 있는 것)를 감지는 가능하지만, 단일 비디오 프레임에서 시계적(temporal-related) HOI(예: 문을 열거나 닫는 것)를 추측하는 것은 인간에게도 어려운 일입니다. 이 경우 인접한 프레임들이 핵심적인 역할을 합니다. 그러나 전통적인 HOI 방법들은 주로 정적 이미지를 사용하여 시계적 상호작동을 예측하는데, 이는 시계적 맥락 없이 추측하는 것이므로 최적의 성능을 내기 어렵습니다. 본 논문에서는 이러한 격차를 메우기 위해 명시적인 시계 정보를 활용한 비디오 기반의 HOI 감지를 제안합니다. 먼저, 일반적인 행동 감지 베이스라인의 단순한 시계 인식 변형이 비디오 기반 HOI에서 작동하지 않는 이유를 설명합니다. 이는 특성 불일치(feature-inconsistency) 문제 때문입니다. 그런 다음, 사람과 물체 궤도, 올바르게 위치된 시각 특성, 공간-시계 마스킹 자세 특성을 활용하는 간단하면서도 효과적인 구조인 공간-시계 HOI 감지(Spatial-Temporal Human-Object Interaction Detection, ST-HOI) 모델을 제안합니다. 우리는 제안된 접근법이 견고한 베이스라인으로 작용하도록 새로운 비디오 HOI 벤치마크(VidHOI)를 구성하였습니다.