2달 전

Free-T2M: 주파수 강화된 텍스트-모션 확산 모델과 일관성 손실

Chen, Wenshuo ; Jia, Haozhe ; Lai, Songning ; Wu, Keming ; Xiao, Hongru ; Hu, Lijie ; Yue, Yutao

초록

텍스트-모션 생성 분야에서의 급속한 발전은 주로 확산 모델에 의해 이끌어져 왔습니다. 그러나 기존 방법들은 시간적 모델링에만 집중하여 주파수 영역 분석을 간과하고 있습니다. 우리는 모션 제노이징 과정에서 두 가지 핵심 단계를 식별하였습니다: 의미 계획 단계와 세부 개선 단계입니다. 이러한 단계들을 효과적으로 처리하기 위해, 우리는 주파수 강화 텍스트-모션 확산 모델 (Frequency enhanced text-to-motion diffusion model, Free-T2M)을 제안합니다. 이 모델은 각 단계별 일관성 손실을 통합하여 정적 특성의 견고성을 향상시키고 세부 정확도를 개선합니다. 광범위한 실험 결과는 우리 방법의 효과성을 입증합니다. 특히, StableMoFusion 데이터셋에서 우리 방법은 FID(Fréchet Inception Distance) 값을 0.189에서 0.051로 줄여, 확산 아키텍처 내에서 새로운 최고 성능(SOTA)을 달성하였습니다. 이러한 연구 결과는 더 정밀하고 견고한 텍스트-모션 생성을 위해 주파수 영역 통찰력을 결합하는 것이 중요함을 강조합니다.