HyperAIHyperAI

Command Palette

Search for a command to run...

vor 19 Tagen

Technischer Bericht zu Step-Audio-EditX

Technischer Bericht zu Step-Audio-EditX

Abstract

Wir stellen Step-Audio-EditX vor, das erste open-source-LLM-basierte Audio-Modell, das sich durch eine hohe Ausdruckskraft und iterativen Audio-Editierfähigkeit auszeichnet, wobei Emotion, Sprechstil und paralinguistische Merkmale umfassend bearbeitet werden können, und gleichzeitig über robuste zero-shot-Text-zu-Sprache (TTS)-Fähigkeiten verfügt. Unser zentrales Innovationsmerkmal besteht darin, ausschließlich auf großem Margin synthetische Daten zu nutzen, wodurch der Einsatz von embeddingbasierten Prior-Modellen oder zusätzlichen Moduln entfällt. Dieser Ansatz des großen Margin-Lernens ermöglicht sowohl eine präzise iterative Steuerung als auch eine hohe Ausdruckskraft über verschiedene Stimmen hinweg und markiert eine grundlegende Verschiebung gegenüber dem herkömmlichen Fokus auf der Disentanglement auf Repräsentationsebene. Evaluierungsergebnisse zeigen, dass Step-Audio-EditX sowohl MiniMax-2.6-hd als auch Doubao-Seed-TTS-2.0 in der Emotions-Editierung und anderen feinabgestimmten Steuerungsaufgaben übertrifft.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Technischer Bericht zu Step-Audio-EditX | Forschungsarbeiten | HyperAI