Command Palette
Search for a command to run...
VStyle: Ein Benchmark für die Stimmlautadaptation mit gesprochenen Anweisungen
VStyle: Ein Benchmark für die Stimmlautadaptation mit gesprochenen Anweisungen
Zusammenfassung
Sprachliche Sprachmodelle (SLMs) haben sich als einheitlicher Ansatz für die Sprachverarbeitung und -generierung etabliert und ermöglichen eine natürliche Interaktion zwischen Mensch und Maschine. Während jedoch der größte Teil der Fortschritte auf semantische Genauigkeit und die Beachtung von Anweisungen fokussiert war, erhielt die Fähigkeit von SLMs, ihren Sprechstil anhand mündlicher Anweisungen anzupassen, nur geringe Aufmerksamkeit. Wir stellen VSA (Voice Style Adaptation), eine neue Aufgabe, vor, die untersucht, ob SLMs ihren Sprechstil – beispielsweise Klangfarbe, Prosodie oder Persönlichkeit – anhand natürlicher Sprache formulierter mündlicher Befehle verändern können. Um diese Aufgabe zu erforschen, präsentieren wir VStyle, einen bilingualen (Chinesisch & Englisch) Benchmark, der vier Kategorien der Sprachgenerierung abdeckt: akustische Merkmale, natürliche Sprachanweisungen, Rollenspiele und implizite Empathie. Außerdem führen wir den Rahmenwerk „Large Audio Language Model as a Judge“ (LALM as a Judge) ein, das die Ausgaben schrittweise hinsichtlich Texttreue, Stilgenauigkeit und Natürlichkeit bewertet und eine reproduzierbare und objektive Beurteilung gewährleistet. Experimente an kommerziellen Systemen und Open-Source-SLMs zeigen, dass aktuelle Modelle deutliche Grenzen bei der kontrollierten Stiladaptation aufweisen und unterstreichen damit die Neuheit und Herausforderung dieser Aufgabe. Durch die Veröffentlichung von VStyle und seinem Evaluierungstoolkit wollen wir der Forschungsgemeinschaft eine Grundlage für die Weiterentwicklung menschenzentrierter mündlicher Interaktion bieten. Die Datensätze und den Quellcode finden Sie öffentlich unter:https://junzhan2000.github.io/VStyle.github.io/