Command Palette
Search for a command to run...
VStyle : Une base de référence pour l'adaptation du style vocal avec des instructions orales

Résumé
Les modèles de langage parlé (SLM) sont apparus comme un paradigme unifié pour la compréhension et la génération vocales, permettant une interaction naturelle entre l’humain et la machine. Toutefois, alors que la majorité des progrès se sont concentrés sur l’exactitude sémantique et le respect des instructions, la capacité des SLM à adapter leur style d’énonciation en fonction d’instructions orales naturelles a reçu une attention limitée. Nous introduisons la tâche d’adaptation du style vocal (VSA), qui consiste à évaluer si les SLM peuvent modifier leur style d’énonciation — tel que le timbre, la prosodie ou le personnage — en réponse à des commandes linguistiques orales naturelles. Pour étudier cette tâche, nous proposons VStyle, un benchmark bilingue (chinois et anglais) couvrant quatre catégories de génération vocale : attributs acoustiques, instructions en langage naturel, jeux de rôle et empathie implicite. Nous introduisons également le cadre LALM as a Judge (Modèle linguistique audio de grande taille comme juge), qui évalue progressivement les sorties selon trois critères : fidélité textuelle, adéquation au style et naturalité, garantissant une évaluation reproductible et objective. Les expérimentations menées sur des systèmes commerciaux et des SLM open source montrent que les modèles actuels rencontrent des limites claires en matière d’adaptation contrôlée du style, soulignant à la fois la nouveauté et le défi de cette tâche. En rendant disponible VStyle ainsi que son outil d’évaluation, nous visons à fournir à la communauté une base solide pour faire avancer les interactions vocales centrées sur l’humain. Les données et le code sont accessibles publiquement à l’adresse suivante : https://junzhan2000.github.io/VStyle.github.io/{page d’accueil du projet}.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.