
초록
인간 운동의 합성은 전통적으로 특정 도전 과제에 초점을 맞춘 작업에 종속적인 모델을 통해 다뤄져 왔다. 예를 들어, 미래의 운동을 예측하거나 알려진 주요 자세를 기반으로 중간 자세를 보간하는 등의 문제이다. 본 논문에서는 이러한 과제들을 통합된 아키텍처를 통해 효과적으로 해결할 수 있는 새로운 작업에 종속되지 않는 모델인 UNIMASK-M을 제안한다. 제안한 모델은 각 분야에서 최첨단 기술과 비교해도 유사하거나 더 우수한 성능을 달성한다. 비전 트랜스포머(Vision Transformers, ViTs)의 영감을 받아, UNIMASK-M 모델은 인간 자세를 신체 부위별로 분해함으로써 인간 운동 내에 존재하는 시공간적 관계를 효율적으로 활용한다. 또한, 다양한 자세 조건부 운동 합성 과제를 입력으로 주어진 서로 다른 마스킹 패턴을 가진 재구성 문제로 재정의한다. 마스킹된 관절에 대해 모델에 명시적으로 정보를 제공함으로써, UNIMASK-M은 가림 현상에 더 강건해진다. 실험 결과, 본 모델은 Human3.6M 데이터셋에서 인간 운동 예측을 성공적으로 수행함을 보였다. 또한, LaFAN1 데이터셋에서 운동 보간 작업에서도 장기간의 전이 기간 동안 특히 뛰어난 성능을 기록하며 최첨단 수준의 결과를 달성하였다. 자세한 내용은 프로젝트 웹사이트(https://evm7.github.io/UNIMASKM-page/)에서 확인할 수 있다.