Command Palette

Search for a command to run...

19日前

Step-Audio-EditX 技術報告

Step-Audio-EditX 技術報告

要約

本稿では、感情、発話スタイル、副言語的要素を含む表現性と反復的編集に優れた、初めてのオープンソースのLLMベース音声モデル「Step-Audio-EditX」を紹介する。本モデルは、強力なゼロショットテキストtoスピーク(TTS)機能を併せ持つ。本研究の核心的革新点は、埋め込みベースの事前知識や補助モジュールを一切用いずに、大マージン(large-margin)合成データのみを活用する点にある。この大マージン学習アプローチにより、声の表現性の高さと反復的制御の両立が可能となり、従来の表現レベルでの分離性(disentanglement)に注力するアプローチから根本的に転換を図った。評価結果から、Step-Audio-EditXはMiniMax-2.6-hdおよびDoubao-Seed-TTS-2.0を上回る感情編集性能と、その他の細粒度制御タスクにおける優れた性能を示した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Step-Audio-EditX 技術報告 | 論文 | HyperAI超神経