초록
본 연구에서는 뼈대(스켈레톤) 시퀀스로 표현되는 긴 동작을 생성하는 것을 목표로 한다. 생성된 시퀀스는 시간적으로 연속적이며 의미 있는 인간 동작을 보여주어야 하며, 신체 부위 간의 일관성을 유지해야 한다. 자동회귀 모델을 따르는 일련의 스켈레톤을 순차적으로 생성하는 대신, 우리는 가우시안 프로세스(GP)로부터 샘플링된 잠재 벡터 시퀀스를 변환함으로써 전체 시퀀스를 동시에 생성하는 프레임워크를 제안한다. 이 프레임워크는 '컨볼루셔널 시퀀스 생성 네트워크(Convolutional Sequence Generation Network, CSGN)'라고 명명된다. CSGN은 시간적 및 공간적 차원에서 구조를 공동으로 모델링한다. GP 사전 분포와 시간적 컨볼루션을 통해 다중 스케일의 시간 구조를 포착하며, 새로운 그래프 정밀화 방식을 통해 잠재 벡터와 스켈레톤 그래프 간의 공간적 연결을 구축한다. 특히 CSGN은 잠재 공간과 관측 공간 사이에 양방향 변환을 허용함으로써, 다양한 형태의 동작 시퀀스에 대한 의미론적 조작을 가능하게 한다는 점이 주목할 만하다. 우리는 자체적으로 수집한 고품질의 춤 동작 시퀀스를 포함한 여러 데이터셋에서 실증적 연구를 수행하였으며, 실험 결과 본 프레임워크가 시간 단계 간 및 신체 부위 간에 일관성을 유지하는 긴 동작 시퀀스를 효과적으로 생성할 수 있음을 입증하였다.