17일 전

비디오에서의 인간 자세 추정을 위한 운동학적 인지 계층형 주의 네트워크

Kyung-Min Jin, Byoung-Sung Lim, Gun-Hee Lee, Tae-Kyung Kang, Seong-Whan Lee
비디오에서의 인간 자세 추정을 위한 운동학적 인지 계층형 주의 네트워크
초록

이전의 영상 기반 인간 자세 추정 방법들은 연속 프레임의 집계된 특징을 활용함으로써 유망한 성과를 보여주었다. 그러나 대부분의 접근 방식은 진동을 완화하기 위해 정확도를 희생하거나 인간 운동의 시간적 특성을 충분히 이해하지 못한다. 더불어, 가림 현상은 연속 프레임 간의 불확실성을 증가시켜 부드럽지 않은 결과를 초래한다. 이러한 문제들을 해결하기 위해, 다음과 같은 구성 요소를 갖춘 키포인트 운동학적 특징을 활용하는 아키텍처를 설계하였다. 첫째, 개별 키포인트의 속도와 가속도를 활용하여 효과적으로 시간적 특징을 추출한다. 둘째, 제안된 계층적 트랜스포머 인코더는 공간-시간적 종속성을 집계하고, 기존 추정기로부터 얻은 2D 또는 3D 입력 자세를 정교화한다. 셋째, 인코더에서 생성된 정교화된 입력 자세와 디코더에서 도출된 최종 자세 간에 온라인 크로스-감독을 제공함으로써 공동 최적화를 가능하게 한다. 본 연구에서는 2D 자세 추정, 3D 자세 추정, 신체 메시 복원, 희박하게 레이블링된 다중 인체 자세 추정 등 다양한 작업에서 종합적인 결과를 제시하며 모델의 효과성을 검증하였다. 코드는 https://github.com/KyungMinJin/HANet 에서 공개되어 있다.

비디오에서의 인간 자세 추정을 위한 운동학적 인지 계층형 주의 네트워크 | 최신 연구 논문 | HyperAI초신경