17일 전

Audio2Gestures: 조건부 변분 오토인코더를 활용한 음성 오디오에서 다양한 제스처 생성

Jing Li, Di Kang, Wenjie Pei, Xuefei Zhe, Ying Zhang, Zhenyu He, Linchao Bao
Audio2Gestures: 조건부 변분 오토인코더를 활용한 음성 오디오에서 다양한 제스처 생성
초록

음성 오디오에서 대화형 제스처를 생성하는 것은 오디오와 신체 운동 간의 본질적인 일대다 매핑 특성으로 인해 도전적이다. 기존의 CNN/RNN 모델은 일대일 매핑을 전제로 하므로, 가능한 모든 목표 운동의 평균을 예측하게 되어 추론 시 지루하고 단조로운 운동을 생성하게 된다. 이 문제를 해결하기 위해, 다중 모달 잠재 코드를 공유 코드와 운동 특화 코드로 분리함으로써 음성-운동 간의 일대다 매핑을 명시적으로 모델링하는 새로운 조건부 변분 오토인코더(Variational Autoencoder, VAE)를 제안한다. 공유 코드는 음성과 운동 간의 강한 상관관계(예: 음성과 운동의 리듬이 동기화된 부분)를 주로 모델링하고, 운동 특화 코드는 음성과 독립적인 다양한 운동 정보를 포착한다. 그러나 잠재 코드를 두 부분으로 나누는 것은 VAE 모델의 학습을 어렵게 만든다. 이를 해결하기 위해, 랜덤 샘플링을 가능하게 하는 매핑 네트워크를 도입하고, 완화된 운동 손실(loss), 자전거 제약(bicycle constraint), 다양성 손실(diversity loss) 등의 기법을 함께 설계하여 VAE의 학습을 개선하였다. 3D 및 2D 운동 데이터셋에서 수행한 실험을 통해 제안한 방법이 최첨단 기법들에 비해 더 현실적이고 다양한 운동을 생성함을 정량적·정성적으로 입증하였다. 마지막으로, 본 방법이 사용자가 원하는 운동 클립을 타임라인에 직접 지정하여 운동 시퀀스를 생성하는 데에도 즉시 활용 가능함을 보여주었다. 코드 및 추가 결과는 https://jingli513.github.io/audio2gestures 에서 확인할 수 있다.

Audio2Gestures: 조건부 변분 오토인코더를 활용한 음성 오디오에서 다양한 제스처 생성 | 최신 연구 논문 | HyperAI초신경