2ヶ月前

DisCoRD: 離散トークンから連続的な運動への変換を経由した Rectified Flow デコーディング

Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
DisCoRD: 離散トークンから連続的な運動への変換を経由した Rectified Flow デコーディング
要約

人間の動きは、本質的に連続的かつ動的なものであり、生成モデルにとって大きな課題を呈しています。それらが主流であるにもかかわらず、VQ-VAEなどの離散量子化手法は、表現力の制限やフレーム単位のノイズアーティファクトなどの固有の制約に悩まされています。一方で、より滑らかで自然な動きを生成する連続的手法は、高次元の複雑さと限定的な訓練データによりしばしば失敗します。この離散表現と連続表現の「不和」を解決するために、私たちはDisCoRD(Discrete Tokens to Continuous Motion via Rectified Flow Decoding)という新しい方法を提案します。DisCoRDは、連続空間での反復的な精緻化プロセスを用いて、離散的な動作トークンを連続的な動作にデコードし、微細なダイナミクスを捉えつつ滑らかで自然な動きを確保します。どの離散ベースのフレームワークとも互換性があり、当手法は条件付け信号への忠実性を損なうことなく自然性を向上させます。広範な評価によって示されたように、DisCoRDはHumanML3DにおいてFID 0.032、KIT-MLにおいてFID 0.169という最先端の性能を達成しており、これらの結果は離散効率と連続現実感のギャップを埋める堅牢な解決策としてDisCoRDの位置づけを確固たるものにしています。プロジェクトページは以下のURLからアクセスできます: https://whwjdqls.github.io/discord.github.io/。

DisCoRD: 離散トークンから連続的な運動への変換を経由した Rectified Flow デコーディング | 最新論文 | HyperAI超神経