16일 전

ReMoDiffuse: 검색 증강 동작 확산 모델

Mingyuan Zhang, Xinying Guo, Liang Pan, Zhongang Cai, Fangzhou Hong, Huirong Li, Lei Yang, Ziwei Liu
ReMoDiffuse: 검색 증강 동작 확산 모델
초록

3D 인간 동작 생성은 창작 산업에서 매우 중요하다. 최근의 기술 발전은 텍스트 기반 동작 생성을 위해 도메인 지식을 통합한 생성 모델에 기반하여 보편적인 동작을 효과적으로 포착하는 데 상당한 진전을 이루었다. 그러나 더 다양한 동작에 대한 성능은 여전히 만족스럽지 못하다. 본 연구에서는 복잡한 노이즈 제거 과정을 개선하기 위해 검색 기반 메커니즘을 통합한 확산 모델 기반 동작 생성 프레임워크인 ReMoDiffuse를 제안한다. ReMoDiffuse는 세 가지 핵심 설계를 통해 텍스트 기반 동작 생성의 일반화 능력과 다양성을 향상시킨다. 첫째, 하이브리드 검색(Hybrid Retrieval)은 의미적 유사성과 운동학적 유사성 측면에서 데이터베이스 내 적절한 참조 자료를 탐색한다. 둘째, 의미 조절형 트랜스포머(Semantic-Modulated Transformer)는 검색된 샘플과 목표 동작 시퀀스 간의 차이에 맞춰 검색된 지식을 선택적으로 흡수한다. 셋째, 조건 혼합(Condition Mixture)은 추론 과정에서 검색 데이터베이스를 더 효과적으로 활용하여 분류기 없는 안내(classifier-free guidance)에서 발생하는 규모 민감성 문제를 극복한다. 광범위한 실험을 통해 ReMoDiffuse가 텍스트-동작 일관성과 동작 품질을 균형 있게 유지하면서, 특히 더 다양한 동작 생성에 있어서 최신 기술 대비 뛰어난 성능을 발휘함을 입증하였다.

ReMoDiffuse: 검색 증강 동작 확산 모델 | 최신 연구 논문 | HyperAI초신경