Step-Audio 2 Technischer Bericht

Dieser Artikel stellt Step-Audio~2 vor, ein end-to-end-Multimodal-Modell für große Sprachmodelle, das für industriestarkes Audio-Verständnis und Sprachkommunikation entwickelt wurde. Durch die Integration eines latenten Audio-Encoders und einer auf Schlussfolgerung ausgerichteten Verstärkungslernmethode (reinforcement learning, RL) erzielt Step-Audio 2 vielversprechende Leistungsergebnisse in der automatischen Spracherkennung (automatic speech recognition, ASR) und im Audio-Verständnis. Um echte end-to-end-Sprachkommunikation zu ermöglichen, integriert Step-Audio 2 die Generierung diskreter Audio-Token in das Sprachmodellieren, wodurch seine Reaktionsfähigkeit auf paralinguistische Informationen wie Sprechweise und Emotionen deutlich gesteigert wird. Um die reiche textuelle und akustische Wissensbasis in realen Daten effektiv zu nutzen, kombiniert Step-Audio 2 Retrieval-Augmented Generation (RAG) und ist in der Lage, externe Tools wie Web-Suche einzusetzen, um Halluzinationen zu reduzieren und Audio-Suche, um Klangfarben zu wechseln. Step-Audio 2 wurde auf Millionen von Stunden Sprach- und Audio-Daten trainiert und bietet Intelligenz und Ausdruckskraft in verschiedenen Gesprächsszenarien. Die Evaluierungsergebnisse zeigen, dass Step-Audio 2 gegenüber anderen Open-Source- und kommerziellen Lösungen eine führende Leistung auf verschiedenen Audio-Verständnis- und Conversational-Benchmarks erreicht. Weitere Informationen finden Sie unter https://github.com/stepfun-ai/Step-Audio2.