4달 전

마스크된 운동 예측자는 강력한 3D 행동 표현 학습자입니다.

Mao, Yunyao ; Deng, Jiajun ; Zhou, Wengang ; Fang, Yao ; Ouyang, Wanli ; Li, Houqiang
마스크된 운동 예측자는 강력한 3D 행동 표현 학습자입니다.
초록

3D 인간 행동 인식에서 제한된 지도 데이터는 강력한 네트워크인 트랜스포머 등의 모델링 잠재력을 완전히 활용하는 것이 어려움을 초래합니다. 이에 따라 연구자들은 효과적인 자기 감독 사전 학습 전략을 적극적으로 탐구하고 있습니다. 본 연구에서는 일반적으로 사용되는 예상 과제를 따르지 않고, 인간 관절에서 마스크된 자기 구성 요소 재구성을 수행하는 대신 명시적인 맥락적 운동 모델링이 3D 행동 인식의 효과적인 특징 표현 학습 성공의 열쇠임을 보여줍니다. 구체적으로, 우리는 마스크된 시공간 스켈레톤 시퀀스를 입력으로 받아 마스크된 인간 관절의 해당 시간 운동을 예측하는 마스크드 운동 예측(Masked Motion Prediction, MAMP) 프레임워크를 제안합니다. 스켈레톤 시퀀스의 높은 시간 중복성을 고려하여, 우리의 MAMP에서는 운동 정보가 마스킹 과정을 안내하는 경험적 의미 풍부성 사전 정보로 작용하여 의미가 풍부한 시간 영역에 더 나은 주목을 촉진합니다. NTU-60, NTU-120, PKU-MMD 데이터셋에 대한 광범위한 실험 결과는 제안된 MAMP 사전 학습이 벨이나 화려한 장식 없이 기존 트랜스포머의 성능을 실질적으로 개선하며 최고 수준의 결과를 달성함을 보여줍니다. 우리의 MAMP 소스 코드는 https://github.com/maoyunyao/MAMP에서 확인할 수 있습니다.