HyperAI超神経

概要

本稿では、感情、発話スタイル、副言語的要素を含む表現性と反復的編集に優れた、初めてのオープンソースのLLMベース音声モデル「Step-Audio-EditX」を紹介する。本モデルは、強力なゼロショットテキストtoスピーク（TTS）機能を併せ持つ。本研究の核心的革新点は、埋め込みベースの事前知識や補助モジュールを一切用いずに、大マージン（large-margin）合成データのみを活用する点にある。この大マージン学習アプローチにより、声の表現性の高さと反復的制御の両立が可能となり、従来の表現レベルでの分離性（disentanglement）に注力するアプローチから根本的に転換を図った。評価結果から、Step-Audio-EditXはMiniMax-2.6-hdおよびDoubao-Seed-TTS-2.0を上回る感情編集性能と、その他の細粒度制御タスクにおける優れた性能を示した。

概要

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang

概要

AIでAIを構築

HyperAI Newsletters

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang

概要

AIでAIを構築

HyperAI Newsletters

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

Step-Audio-EditX 技術報告

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang3 more

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

Step-Audio-EditX 技術報告

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang3 more

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

Step-Audio-EditX 技術報告

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang3 more

概要

AIでAIを構築

HyperAI Newsletters

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang