2달 전

GestureLSM: 공간-시간 모델링을 활용한 잠재 단축 기반 공동 발화 제스처 생성

Liu, Pinxin ; Song, Luchuan ; Huang, Junhua ; Liu, Haiyang ; Xu, Chenliang
GestureLSM: 공간-시간 모델링을 활용한 잠재 단축 기반 공동 발화 제스처 생성
초록

음성 신호를 기반으로 전체 몸동작을 생성하는 것은 여전히 품질과 속도 측면에서 도전 과제입니다. 기존 접근 방식은 몸, 다리, 손 등의 다른 신체 부위를 개별적으로 모델링하여 이들 사이의 공간적 상호작용을 포착하지 못하고, 결과적으로 비자연스럽고 분절된 움직임을 초래합니다. 또한, 이들의 자기회귀/확산 기반 파이프라인은 수십 단계의 추론 과정으로 인해 느린 생성 속도를 보입니다. 이러한 두 가지 문제를 해결하기 위해, 우리는 공간-시간 모델링을 활용한 Co-Speech Gesture Generation(공발화 제스처 생성)을 위한 flow-matching 기반 접근 방식인 GestureLSM을 제안합니다. 우리의 방법은 i) 공간 및 시간 주의 메커니즘을 통해 토큰화된 신체 부위 간의 상호작용을 명시적으로 모델링하여 일관된 전체 몸동작을 생성합니다. ii) 잠재 속도 공간을 명시적으로 모델링함으로써 더 효율적인 샘플링이 가능하도록 flow matching을 도입합니다. flow matching 베이스라인의 최적 성능 미달 문제를 극복하기 위해, 우리는 학습 중에 잠재 단축 학습(latent shortcut learning)과 베타 분포 시간 스탬프 샘플링(beta distribution time stamp sampling)을 제안하여 제스처 합성 품질을 향상시키고 추론 속도를 가속화합니다. 공간-시간 모델링과 개선된 flow matching 기반 프레임워크를 결합한 GestureLSM은 BEAT2에서 최고 수준의 성능을 달성하면서 기존 방법보다 추론 시간을大幅减少,从而在实际应用中展示了其增强数字人类和具身代理人的潜力。项目页面: https://andypinxinliu.github.io/GestureLSM(注:最后两句中的“大幅减少”和“从而在实际应用中展示了其增强数字人类和具身代理人的潜力”部分需要修正为韩语。)空间-时间建模과 개선된 flow matching 기반 프레임워크를 결합한 GestureLSM은 BEAT2에서 최고 수준의 성능을 달성하면서 기존 방법보다 추론 시간을 크게 줄였습니다. 이를 통해 실제 응용 분야에서 디지털 인간과 구현 에이전트(embodied agents)의 성능 향상을 위한 잠재력을 입증하였습니다。项目页面: https://andypinxinliu.github.io/GestureLSM(修正后的版本如下:)空間-時間建模と改善されたフローマッチングベースのフレームワークを組み合わせたGestureLSMは、BEAT2で最先端の性能を達成し、既存の方法よりも推論時間を大幅に削減しました。これにより、実際の応用分野でデジタルヒューマンとエンボディエージェントの性能向上の可能性が示されました。プロジェクトページ: https://andypinxinliu.github.io/GestureLSM最终韩语翻译:공간-시간 모델링과 개선된 flow matching 기반 프레임워크를 결합한 GestureLSM은 BEAT2에서 최고 수준의 성능을 달성하면서 기존 방법보다 추론 시간을 크게 줄였습니다. 이를 통해 실제 응용 분야에서 디지털 인간과 구현 에이전트(embodied agents)의 성능 향상을 위한 잠재력을 입증하였습니다. 프로젝트 페이지: https://andypinxinliu.github.io/GestureLSM