Command Palette
Search for a command to run...
WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild
Linhao Zhang Jian Zhang Bokai Lei Chuhan Wu Aiwei Liu Wei Jia Xiao Zhou

Abstract
Kürzlich veröffentlichte multimodale große Sprachmodelle (Large Language Models, LLMs), wie beispielsweise GPT-4o, haben erhebliche Fähigkeiten im direkten Sprachinteraktionsverhalten gezeigt. Dennoch behindert das Fehlen spezialisierter und umfassender Benchmarks zur Bewertung end-to-end-Sprach-LLMs die Optimierung der Benutzererfahrung von Audio-LLMs in realen Anwendungsszenarien. Bestehende Bewertungsmethoden passen häufig textbasierte Benchmarks an, wobei die spezifischen Eigenschaften und Herausforderungen der Sprache – wie Prosodie, Homophone, Stottern sowie unterschiedliche Benutzererwartungen – oft außer Acht gelassen werden. In dieser Arbeit stellen wir den ersten umfassenden Benchmark vor, der systematisch die Bewertung end-to-end-Sprach-LLMs in praktischen Sprachdialogen ermöglicht. Wir sammeln systematisch echte Chat-Daten, die sich auf gesprochene Interaktionen beziehen, führen Vielfalt in den sprachlichen Merkmalen der Sprecher und in akustischen Bedingungen ein und erweitern die Datensammlung um sprachspezifische Phänomene. Darüber hinaus entwickeln wir eine abfragenorientierte Bewertungsmethode, die maßgeschneiderte Bewertungschecklisten und gezielte Prompt-Texte nutzt, um die Genauigkeit der automatisierten Bewertung zu erhöhen. Wir führen umfassende Tests und detaillierte Analysen verschiedener etablierter Sprachmodelle durch und decken erhebliche Unterschiede in der Modellleistung unter verschiedenen Sprach-Szenarien auf. Die Anwendung der abfragenorientierten Bewertung ermöglicht zudem eine feinere, situationsabhängige Bewertung unter unterschiedlichen sprachspezifischen Bedingungen. Unser Benchmark liefert wertvolle Erkenntnisse für die Entwicklung und Bewertung von Sprachmodellen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.