2달 전

DisCoRD: 이산 토큰에서 연속적인 운동으로의 정류 유동 디코딩

Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
DisCoRD: 이산 토큰에서 연속적인 운동으로의 정류 유동 디코딩
초록

인간의 움직임은 본질적으로 연속적이고 동적인 특성을 가지고 있어 생성 모델에 큰 도전을 제시합니다. 비록 이산 양자화 방법이 주류를 이루고 있지만, VQ-VAE와 같은 방법들은 표현력의 제한과 프레임별 노이즈 아티팩트 등의 고유한 한계를 가지고 있습니다. 연속적 접근 방식은 더 부드럽고 자연스러운 움직임을 생성하지만, 고차원 복잡성과 제한된 훈련 데이터로 인해 종종 실패합니다. 이러한 이산 표현과 연속 표현 사이의 "불화"를 해결하기 위해, 우리는 DisCoRD: 이산 토큰에서 연속 움직임으로의 정규화 유동 디코딩(Discrete Tokens to Continuous Motion via Rectified Flow Decoding)이라는 새로운 방법을 소개합니다. DisCoRD는 연속 공간에서 반복적인 개선 과정을 통해 미세한 역학적 특성을 포착하고, 더 부드럽고 자연스러운 움직임을 보장합니다. 어떠한 이산 기반 프레임워크와도 호환되는 우리의 방법은 조건부 신호에 대한 충실성을 유지하면서 자연스러움을 향상시킵니다. 광범위한 평가 결과를 통해 DisCoRD는 HumanML3D에서 FID 0.032, KIT-ML에서 FID 0.169라는 최신 성능을 달성함을 입증하였습니다. 이러한 결과는 DisCoRD가 이산 효율성과 연속적 현실감 사이의 간극을 메우는 강력한 해결책임을 확고히 합니다. 우리 프로젝트 페이지는 다음 링크에서 확인할 수 있습니다: https://whwjdqls.github.io/discord.github.io/.

DisCoRD: 이산 토큰에서 연속적인 운동으로의 정류 유동 디코딩 | 최신 연구 논문 | HyperAI초신경