다양한 확률적 인간 행동 생성기를 학습하는 방법: 부드러운 잠재 상태 전이를 통한 학습

인체 운동 생성은 복잡하고 다양한 동적 패턴을 정확히 모델링해야 하는 요구사항 때문에 오랫동안 어려운 과제로 여겨져 왔습니다. 기존의 대부분 방법은 RNN과 같은 시퀀스 모델을 사용하여 원래 행동 공간에서의 전이를 직접 모델링합니다. 그러나 고차원성과 잠재적인 노이즈로 인해 이러한 행동 전이의 모델링은 특히 어렵습니다. 본 논문에서는 뼈대 기반 행동 생성에 초점을 맞추고, 행동 시퀀스의 잠재 공간에서 부드럽고 다양한 전이를 모델링하는 방법을 제안합니다. 이는 차원 수가 훨씬 낮아집니다. 잠재 시퀀스를 조건으로 하여 모든 잠재적인 행동 포즈에 공유되는 프레임별 디코더를 통해 행동이 생성됩니다. 구체적으로, 부드러운 잠재 시퀀스를 모델링하기 위해 암시적 RNN(Recurrent Neural Network)이 정의되며, 이 때 입력에서 발생하는 노이즈로 무작위성(다양성)을 제어합니다. 표준적인 행동 예측 방법과 달리, 우리의 모델은 어떠한 조건부 행동 포즈도 없이 순수한 노이즈로부터 행동 시퀀스를 생성할 수 있습니다. 또한, 훈련 중 혼합된 클래스로부터 미처 보지 못한 행동들을 생성할 수도 있습니다. 우리의 모델은 양방향 생성적 대립 네트워크(bi-directional generative-adversarial-net) 프레임워크를 통해 학습되며, 이는 특정 클래스나 클래스 혼합에 대한 다양성을 가진 행동 시퀀스를 생성할 뿐 아니라, 동일한 모델 내에서 행동 시퀀스 분류도 학습합니다. 실험 결과는 우리 방법론이 기존 방법론에 비해 다양성 있는 행동 시퀀스 생성 및 분류 모두에서 우월함을 보여주었습니다.