2달 전
액션 머신: 잘라낸 비디오에서의 액션 인식 재고찰
Zhu, Jiagang ; Zou, Wei ; Xu, Liang ; Hu, Yiming ; Zhu, Zheng ; Chang, Manyu ; Huang, Junjie ; Huang, Guan ; Du, Dalong

초록
기존의 비디오 행동 인식 방법들은 대부분 인간의 몸과 환경을 구분하지 못하고 장면과 물체에 쉽게 과적합되는 경향이 있습니다. 본 연구에서는 잘라낸 비디오에서의 행동 인식을 위해 개념적으로 간단하면서도 일반적이며 성능이 뛰어난 프레임워크를 제시합니다. 이 프레임워크는 사람 중심 모델링을 목표로 합니다. 이 방법은 '액션 머신'이라고 불리며, 사람 바운딩 박스로 자른 비디오를 입력으로 받습니다. 이는 Inflated 3D ConvNet (I3D)을 확장하여 인간 포즈 추정을 위한 분기와 포즈 기반 행동 인식을 위한 2D CNN을 추가함으로써, 훈련과 테스트가 빠르게 이루어집니다. 액션 머신은 행동 인식과 포즈 추정의 다중 작업 훈련, RGB 이미지와 포즈 예측의 융합에서 혜택을 받습니다. NTU RGB-D 데이터셋에서 액션 머신은 교차 뷰(cross-view)와 교차 주제(cross-subject)에서 각각 97.2%와 94.3%의 최상위-1 정확도를 달성하여 최고 수준의 성능을 보여주었습니다. 또한 액션 머신은 다른 세 개의 작은 행동 인식 데이터셋인 Northwestern UCLA Multiview Action3D, MSR Daily Activity3D 및 UTD-MHAD에서도 경쟁력 있는 성능을 보였습니다. 코드는 공개될 예정입니다.