17일 전

AQ-GT: 시간적으로 정렬되고 양자화된 GRU-Transformer를 활용한 공음성 제스처 합성

Hendric Voß, Stefan Kopp
AQ-GT: 시간적으로 정렬되고 양자화된 GRU-Transformer를 활용한 공음성 제스처 합성
초록

말과 함께 하는 자연스럽고 맥락적으로 적절한 제스처 생성은 다모달 인공 에이전트 개발에서 도전적이지만 점점 더 중요한 과제로 부상하고 있다. 기존의 방법들은 말과 함께 하는 제스처 표현과 생성된 움직임 사이에 직접적인 대응 관계를 학습하는 데 초점을 맞추었으나, 인간 평가에서 보면 보기에 자연스럽게 보이지만 종종 설득력이 부족한 제스처를 생성하는 문제가 있었다. 본 연구에서는 생성적 적대망(GAN)과 양자화 파이프라인을 활용하여 부분적인 제스처 시퀀스를 사전 학습하는 방법을 제안한다. 이를 통해 생성된 코드북 벡터는 본 연구 프레임워크의 입력과 출력 모두로 활용되며, 제스처의 생성과 재구성의 기반을 형성한다. 잠재 공간 표현의 매핑을 직접 벡터 표현으로 매핑하는 것 대신 학습함으로써, 본 프레임워크는 인간의 움직임과 행동을 매우 사실적으로 재현하는 표현력 있는 제스처를 생성할 수 있으며, 동시에 생성 과정에서의 아티팩트를 효과적으로 회피할 수 있다. 제안한 방법의 성능을 기존의 말과 함께 하는 제스처 생성 기법들과 기존의 인간 행동 데이터셋과 비교하여 평가하였으며, 아블레이션 스터디를 통해 연구 결과의 타당성도 검증하였다. 실험 결과, 본 방법은 현재의 최선 기법을 명확한 차이로 능가하며, 인간의 제스처와 부분적으로 구분이 어려울 정도로 뛰어난 성능을 보였다. 본 연구의 데이터 파이프라인과 제스처 생성 프레임워크는 공개하여 연구 공동체의 활용을 지원할 예정이다.

AQ-GT: 시간적으로 정렬되고 양자화된 GRU-Transformer를 활용한 공음성 제스처 합성 | 최신 연구 논문 | HyperAI초신경