2달 전
3D 손 포즈의 행동 인식에 대한 활용성
Shamil, Md Salman ; Chatterjee, Dibyadip ; Sener, Fadime ; Ma, Shugao ; Yao, Angela

초록
3D 손 포즈는 행동 인식에 있어 아직 충분히 탐구되지 않은 모달리티입니다. 포즈는 간결하면서도 정보가 풍부하여 컴퓨팅 자원이 제한된 애플리케이션에서 크게 도움을 줄 수 있습니다. 그러나 포즈만으로는 인간이 상호작용하는 물체와 환경을 완전히 이해하기 어렵다는 한계가 있습니다. 이 문제를 해결하기 위해 우리는 HandFormer라는 새로운 다중모달 트랜스포머를 제안합니다. HandFormer는 고 시간 해상도의 3D 손 포즈를 미세한 운동 모델링에 활용하고, 희소하게 샘플링된 RGB 프레임을 장면 의미론 인코딩에 사용하여 효율적으로 손-물체 상호작용을 모델링합니다.손 포즈의 독특한 특성을 관찰함으로써, 우리는 시간적으로 손 모델링을 분해하고 각 관절을 그 단기 궤적(trajectories)으로 표현합니다. 이러한 분해된 포즈 표현과 희소한 RGB 샘플의 조합은 매우 효율적이면서도 높은 정확도를 제공합니다. 단일모달 HandFormer (손 포즈만 사용)는 기존의 스켈레톤 기반 방법보다 5배 적은 FLOPs로 더 우수한 성능을 보여줍니다. RGB를 함께 사용하면, 우리는 Assembly101과 H2O 데이터셋에서 주관적 행동 인식에서 유의미한 개선을 통해 새로운 최고 수준의 성능을 달성하였습니다.