Command Palette
Search for a command to run...

要約
本稿では、感情、発話スタイル、副言語的要素を含む表現性と反復的編集に優れた、初めてのオープンソースのLLMベース音声モデル「Step-Audio-EditX」を紹介する。本モデルは、強力なゼロショットテキストtoスピーク(TTS)機能を併せ持つ。本研究の核心的革新点は、埋め込みベースの事前知識や補助モジュールを一切用いずに、大マージン(large-margin)合成データのみを活用する点にある。この大マージン学習アプローチにより、声の表現性の高さと反復的制御の両立が可能となり、従来の表現レベルでの分離性(disentanglement)に注力するアプローチから根本的に転換を図った。評価結果から、Step-Audio-EditXはMiniMax-2.6-hdおよびDoubao-Seed-TTS-2.0を上回る感情編集性能と、その他の細粒度制御タスクにおける優れた性能を示した。