3달 전
3D 포즈 및 추적 기술이 인간 행동 인식에 미치는 이점에 대하여
Jathushan Rajasegaran, Georgios Pavlakos, Angjoo Kanazawa, Christoph Feichtenhofer, Jitendra Malik

초록
본 연구에서는 행동 인식에 있어 추적(tracking)과 3차원 자세(3D pose)를 활용하는 이점에 대해 탐구한다. 이를 위해 우리는 인간 운동의 궤적을 기반으로 행동을 분석하는 라그랑주적(Lagrangian) 관점을 채택하며, 공간의 고정된 점이 아닌 움직임의 경로를 중심으로 분석한다. 이러한 접근은 사람들의 트랙렛(tracklets)을 활용하여 행동을 예측할 수 있도록 한다. 본 연구의 정신에 따라, 먼저 3차원 자세를 활용하여 행동을 추론하는 것의 이점과 사람 간 상호작용(person-person interactions)을 탐구한다. 이후, 트랙렛을 기반으로 3차원 자세와 맥락화된 외형 정보(contextualized appearance)를 융합하는 라그랑주 행동 인식 모델(Lagrangian Action Recognition model)을 제안한다. 제안한 방법은 AVA v2.2 데이터셋에서 자세만을 사용하는 설정과 표준 벤치마크 설정 모두에서 최신 기술(SOTA) 수준의 성능을 달성하였다. 자세 정보만을 사용해 행동을 추론할 경우, 본 연구의 자세 기반 모델은 기존 최고 성능 모델 대비 +10.0 mAP의 성능 향상을 기록하였으며, 융합 모델은 최고 성능 모델 대비 +2.8 mAP의 성능 향상을 달성하였다. 코드 및 결과는 다음 링크에서 확인할 수 있다: https://brjathu.github.io/LART