STAR-Net: Spatio-Temporal Activation Reprojection을 사용한 동작 인식

깊이 카메라와 관성 센서가 인간 행동 인식에 자주 활용되었지만, 비용이나 환경적 제약으로 인해 이러한 감지 모달리티는 많은 상황에서 실용적이지 않습니다. 따라서 최근에는 딥 컨볼루셔널 신경망을 통해 저렴하고 쉽게 구할 수 있는 RGB 카메라를 이용한 인간 행동 인식에 대한 관심이 증가하고 있습니다. 그러나 지금까지 제안된 행동 인식을 위한 많은 딥 컨볼루셔널 신경망은 이미징 데이터로부터 직접 전역적인 외관 힌트를 학습하는 데 크게 의존하여, 계산적으로 비싸고 훈련하기 어려운 매우 복잡한 네트워크 구조를 초래했습니다. 네트워크의 복잡성을 줄이고 더 높은 성능을 달성하기 위해, 우리는 시공간 활성화 재투영(Spatio-Temporal Activation Reprojection, STAR)이라는 개념을 소개합니다.具體來說,我們通過一組3D卷積在空間和時間上重新投影由人體姿態估計層生成的時空激活。在UTD-MHAD和J-HMDB上的實驗結果表明,基於所提出的STAR框架(我們稱之為STAR-Net)的端到端架構在單一環境和小規模應用中表現出色。在UTD-MHAD上,STAR-Net超越了使用深度和慣性傳感器等更豐富數據模態的幾種方法。修正后的翻译如下:구체적으로, 우리는 3D 컨볼루션 스택을 사용하여 사람 자세 추정 층에서 생성된 시공간 활성화를 공간과 시간에서 재투영합니다. UTD-MHAD와 J-HMDB 데이터셋에서의 실험 결과는 제안된 STAR 프레임워크(우리가 STAR-Net이라고 부르는) 기반의 엔드투엔드 아키텍처가 단일 환경 및 소규모 응용 분야에서 우수한 성능을 보임을 입증하였습니다. UTD-MHAD 데이터셋에서는 STAR-Net이 깊이 및 관성 센서와 같은 더 다양한 데이터 모달리티를 사용하는 여러 방법들을 능가하였습니다.