vor 5 Monaten

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng

Zusammenfassung

Sprachliche Sprachmodelle (SLMs) haben sich als einheitlicher Ansatz für die Sprachverarbeitung und -generierung etabliert und ermöglichen eine natürliche Interaktion zwischen Mensch und Maschine. Während jedoch der größte Teil der Fortschritte auf semantische Genauigkeit und die Beachtung von Anweisungen fokussiert war, erhielt die Fähigkeit von SLMs, ihren Sprechstil anhand mündlicher Anweisungen anzupassen, nur geringe Aufmerksamkeit. Wir stellen VSA (Voice Style Adaptation), eine neue Aufgabe, vor, die untersucht, ob SLMs ihren Sprechstil – beispielsweise Klangfarbe, Prosodie oder Persönlichkeit – anhand natürlicher Sprache formulierter mündlicher Befehle verändern können. Um diese Aufgabe zu erforschen, präsentieren wir VStyle, einen bilingualen (Chinesisch & Englisch) Benchmark, der vier Kategorien der Sprachgenerierung abdeckt: akustische Merkmale, natürliche Sprachanweisungen, Rollenspiele und implizite Empathie. Außerdem führen wir den Rahmenwerk „Large Audio Language Model as a Judge“ (LALM as a Judge) ein, das die Ausgaben schrittweise hinsichtlich Texttreue, Stilgenauigkeit und Natürlichkeit bewertet und eine reproduzierbare und objektive Beurteilung gewährleistet. Experimente an kommerziellen Systemen und Open-Source-SLMs zeigen, dass aktuelle Modelle deutliche Grenzen bei der kontrollierten Stiladaptation aufweisen und unterstreichen damit die Neuheit und Herausforderung dieser Aufgabe. Durch die Veröffentlichung von VStyle und seinem Evaluierungstoolkit wollen wir der Forschungsgemeinschaft eine Grundlage für die Weiterentwicklung menschenzentrierter mündlicher Interaktion bieten. Die Datensätze und den Quellcode finden Sie öffentlich unter:https://junzhan2000.github.io/VStyle.github.io/

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

VStyle: Ein Benchmark für die Stimmlautadaptation mit gesprochenen Anweisungen | Paper | HyperAI

Command Palette

VStyle: Ein Benchmark für die Stimmlautadaptation mit gesprochenen Anweisungen

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VStyle: Ein Benchmark für die Stimmlautadaptation mit gesprochenen Anweisungen

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VStyle: Ein Benchmark für die Stimmlautadaptation mit gesprochenen Anweisungen

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng