
Abstract
Wir stellen Step-Audio-EditX vor, das erste open-source-LLM-basierte Audio-Modell, das sich durch eine hohe Ausdruckskraft und iterativen Audio-Editierfähigkeit auszeichnet, wobei Emotion, Sprechstil und paralinguistische Merkmale umfassend bearbeitet werden können, und gleichzeitig über robuste zero-shot-Text-zu-Sprache (TTS)-Fähigkeiten verfügt. Unser zentrales Innovationsmerkmal besteht darin, ausschließlich auf großem Margin synthetische Daten zu nutzen, wodurch der Einsatz von embeddingbasierten Prior-Modellen oder zusätzlichen Moduln entfällt. Dieser Ansatz des großen Margin-Lernens ermöglicht sowohl eine präzise iterative Steuerung als auch eine hohe Ausdruckskraft über verschiedene Stimmen hinweg und markiert eine grundlegende Verschiebung gegenüber dem herkömmlichen Fokus auf der Disentanglement auf Repräsentationsebene. Evaluierungsergebnisse zeigen, dass Step-Audio-EditX sowohl MiniMax-2.6-hd als auch Doubao-Seed-TTS-2.0 in der Emotions-Editierung und anderen feinabgestimmten Steuerungsaufgaben übertrifft.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.