한 달 전

운동 융합 프레임: 손동작 인식을 위한 데이터 수준 융합 전략

Okan Köpüklü; Neslihan Köse; Gerhard Rigoll
운동 융합 프레임: 손동작 인식을 위한 데이터 수준 융합 전략
초록

행동의 시공간 상태를 획득하는 것은 행동 분류에서 가장 중요한 단계입니다. 본 논문에서는 행동의 시공간 상태를 더 잘 표현하기 위해 움직임 정보를 정적 이미지에 융합하는 데이터 레벨 융합 전략인 모션 퓨즈드 프레임(Motion Fused Frames, MFFs)을 제안합니다. MFFs는 네트워크에 매우 적은 수정만으로 어떤 딥러닝 아키텍처에도 입력으로 사용될 수 있습니다. 우리는 Jester, ChaLearn LAP IsoGD, NVIDIA 다이나믹 핸드 제스처 데이터셋 등 세 개의 비디오 데이터셋을 사용하여 손 동작 인식 작업에서 MFFs를 평가하였습니다. 이 작업들은 손 동작의 장기적인 시간 관계를 포착해야 하는 요구사항을 가지고 있습니다. 우리의 접근 방식은 Jester와 ChaLearn 벤치마크에서 각각 96.28%와 57.4%의 분류 정확도로 매우 경쟁력 있는 성능을 보였으며, NVIDIA 벤치마크에서는 84.7%의 정확도로 최신 기술 수준의 성능을 달성하였습니다.