17일 전
3D 손 자세 추정 및 액션 인식을 위한 주관적 RGB 비디오 기반 계층적 시계열 트랜스포머
Yilin Wen, Hao Pan, Lei Yang, Jia Pan, Taku Komura, Wenping Wang

초록
자기 중심 RGB 비디오에서 동적인 손 동작과 행동을 이해하는 것은 자기 가림과 모호성으로 인해 기본적이면서도 도전적인 과제이다. 가림과 모호성을 해결하기 위해, 우리는 시간 정보를 효과적으로 활용하여 강건한 추정을 가능하게 하는 트랜스포머 기반 프레임워크를 개발하였다. 손 자세 추정과 행동 인식 간의 시간적 세분성의 차이와 의미적 연관성을 인지하여, 두 개의 연결된 트랜스포머 인코더로 구성된 네트워크 계층을 구축하였다. 첫 번째 인코더는 짧은 시간 간격의 시계열 정보를 활용하여 손 자세를 추정하고, 두 번째 인코더는 더 긴 시간 간격에 걸쳐 프레임별 자세 정보와 객체 정보를 통합하여 행동을 인식한다. 제안하는 방법은 FPHA 및 H2O라는 두 가지 1인칭 손 동작 벤치마크에서 경쟁적인 성능을 달성하였다. 광범위한 아블레이션 연구를 통해 제안한 설계 선택의 타당성을 검증하였다.