プロンプトベースの共発話動作生成におけるシナジー効果を活用した全身制御の実現

現在の共発話動作生成手法は、通常、言葉の内容に合わせた上半身のジェスチャーに焦点を当てており、テキストプロンプトに基づく協調的な全身動作の詳細な制御、例えば歩きながら話すといった動作をサポートしていない。主な課題は以下の2点にある。1) 現存する音声から動作への変換データセットは、非常に限定された全身動作しか含んでおらず、多くの一般的な人間の活動が訓練分布外となる;2) これらのデータセットにはユーザープロンプトの注釈が欠けている。これらの課題に対処するために、私たちはSynTalkerを提案する。これは市販のテキストから動作への変換データセットを利用し、欠落している全身動作とプロンプトを補完するための補助手段として機能する。核心的な技術的貢献は二つある。一つ目は、音声から動作への変換データセットとテキストから動作への変換データセットとの間に大きな分布的不一致があるにもかかわらず、動作、音声、およびプロンプトの整合性のある埋め込み空間を得るための多段階トレーニングプロセスである。もう一つ目は、分離してから結合する戦略を使用して局部的な身体部位の細かい制御を実現する拡散型条件付き推論プロセスである。広範な実験が行われており、当手法が既存手法では達成できない言葉とユーザープロンプトに基づく協調的な全身動作生成に対する精密で柔軟な制御をサポートすることを確認している。注意:「off-the-shelf」は「市販の」または「既製品」と訳されることが多いですが、「既製品」だと文脈によっては誤解を招く可能性があるため、「市販の」を選択しました。「diffusion-based conditional inference process」(拡散型条件付き推論プロセス)という表現は専門的な用語であり、日本語でも同様に使用されます。