17일 전

Speech2AffectiveGestures: 생성적 적대 학습을 통한 정서 표현 기반 연설 동반 제스처 합성

Uttaran Bhattacharya, Elizabeth Childs, Nicholas Rewkowski, Dinesh Manocha
Speech2AffectiveGestures: 생성적 적대 학습을 통한 정서 표현 기반 연설 동반 제스처 합성
초록

우리는 입력된 음성과 시드 포즈(시작 포즈)에서 추출된 특징들의 결합 임베딩 공간을 기반으로, 적절한 정서적 표현을 갖춘 공연 중 상체 제스처의 3차원 포즈 시계열을 합성하는 생성적 적대 신경망(generative adversarial network)을 제안한다. 본 네트워크는 두 가지 구성 요소로 이루어져 있다. 하나는 입력 음성과 시드 포즈에서 인코딩된 특징들의 결합 임베딩 공간에서 제스처를 합성하는 생성기(generator), 다른 하나는 합성된 포즈 시계열과 실제 3차원 포즈 시계열을 구분하는 판별기(discriminator)이다. 생성기 내부에서는 입력 음성에서 추출한 멜 주파수 체프스트럼 계수(Mel-frequency cepstral coefficients)와 텍스트 전사(text transcript)를 별도의 인코더를 통해 처리하여 원하는 감정 상태와 관련된 정서적 단서를 학습한다. 또한, 다중 스케일 공간-시계열 그래프 컨볼루션(multi-scale spatial-temporal graph convolutions)을 활용한 정서 인코더를 설계하여 3차원 포즈 시계열을 잠재적인 포즈 기반 정서 특징으로 변환한다. 본 정서 인코더는 생성기에서 시드 포즈로부터 정서적 특징을 학습하여 제스처 합성 과정을 안내하는 데 사용되며, 판별기에서는 합성된 제스처가 적절한 정서적 표현을 포함하도록 강제하는 역할을 수행한다. 제안한 방법은 제스처 합성에 대한 두 가지 벤치마크 데이터셋인 TED Gesture Dataset과 GENEA Challenge 2020 Dataset에서 광범위한 평가를 수행하였다. 최적의 기준 모델 대비, 평균 절대 관절 오차(mean absolute joint error)는 10~33% 개선되었으며, 평균 가속도 차이(mean acceleration difference)는 8~58% 향상되었고, 프레셰 제스처 거리(Fréchet Gesture Distance)는 21~34% 개선되었다. 또한 사용자 실험을 수행한 결과, 최적의 현재 기준 모델 대비 약 15.28%의 참여자가 제안한 합성 제스처가 더 현실적으로 보였다고 응답하였으며, 약 16.32%의 참여자는 제스처가 음성과 일치하는 더 적절한 정서적 표현을 갖추고 있다고 평가하였다.