16일 전
ReMoDiffuse: 검색 증강 동작 확산 모델
Mingyuan Zhang, Xinying Guo, Liang Pan, Zhongang Cai, Fangzhou Hong, Huirong Li, Lei Yang, Ziwei Liu

초록
3D 인간 동작 생성은 창작 산업에서 매우 중요하다. 최근의 기술 발전은 텍스트 기반 동작 생성을 위해 도메인 지식을 통합한 생성 모델에 기반하여 보편적인 동작을 효과적으로 포착하는 데 상당한 진전을 이루었다. 그러나 더 다양한 동작에 대한 성능은 여전히 만족스럽지 못하다. 본 연구에서는 복잡한 노이즈 제거 과정을 개선하기 위해 검색 기반 메커니즘을 통합한 확산 모델 기반 동작 생성 프레임워크인 ReMoDiffuse를 제안한다. ReMoDiffuse는 세 가지 핵심 설계를 통해 텍스트 기반 동작 생성의 일반화 능력과 다양성을 향상시킨다. 첫째, 하이브리드 검색(Hybrid Retrieval)은 의미적 유사성과 운동학적 유사성 측면에서 데이터베이스 내 적절한 참조 자료를 탐색한다. 둘째, 의미 조절형 트랜스포머(Semantic-Modulated Transformer)는 검색된 샘플과 목표 동작 시퀀스 간의 차이에 맞춰 검색된 지식을 선택적으로 흡수한다. 셋째, 조건 혼합(Condition Mixture)은 추론 과정에서 검색 데이터베이스를 더 효과적으로 활용하여 분류기 없는 안내(classifier-free guidance)에서 발생하는 규모 민감성 문제를 극복한다. 광범위한 실험을 통해 ReMoDiffuse가 텍스트-동작 일관성과 동작 품질을 균형 있게 유지하면서, 특히 더 다양한 동작 생성에 있어서 최신 기술 대비 뛰어난 성능을 발휘함을 입증하였다.