HyperAIHyperAI

Command Palette

Search for a command to run...

vor 25 Tagen

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Linhao Zhang Jian Zhang Bokai Lei Chuhan Wu Aiwei Liu Wei Jia Xiao Zhou

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Abstract

Kürzlich veröffentlichte multimodale große Sprachmodelle (Large Language Models, LLMs), wie beispielsweise GPT-4o, haben erhebliche Fähigkeiten im direkten Sprachinteraktionsverhalten gezeigt. Dennoch behindert das Fehlen spezialisierter und umfassender Benchmarks zur Bewertung end-to-end-Sprach-LLMs die Optimierung der Benutzererfahrung von Audio-LLMs in realen Anwendungsszenarien. Bestehende Bewertungsmethoden passen häufig textbasierte Benchmarks an, wobei die spezifischen Eigenschaften und Herausforderungen der Sprache – wie Prosodie, Homophone, Stottern sowie unterschiedliche Benutzererwartungen – oft außer Acht gelassen werden. In dieser Arbeit stellen wir den ersten umfassenden Benchmark vor, der systematisch die Bewertung end-to-end-Sprach-LLMs in praktischen Sprachdialogen ermöglicht. Wir sammeln systematisch echte Chat-Daten, die sich auf gesprochene Interaktionen beziehen, führen Vielfalt in den sprachlichen Merkmalen der Sprecher und in akustischen Bedingungen ein und erweitern die Datensammlung um sprachspezifische Phänomene. Darüber hinaus entwickeln wir eine abfragenorientierte Bewertungsmethode, die maßgeschneiderte Bewertungschecklisten und gezielte Prompt-Texte nutzt, um die Genauigkeit der automatisierten Bewertung zu erhöhen. Wir führen umfassende Tests und detaillierte Analysen verschiedener etablierter Sprachmodelle durch und decken erhebliche Unterschiede in der Modellleistung unter verschiedenen Sprach-Szenarien auf. Die Anwendung der abfragenorientierten Bewertung ermöglicht zudem eine feinere, situationsabhängige Bewertung unter unterschiedlichen sprachspezifischen Bedingungen. Unser Benchmark liefert wertvolle Erkenntnisse für die Entwicklung und Bewertung von Sprachmodellen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild | Forschungsarbeiten | HyperAI