OpenS2S : Avancer vers un modèle de langage vocal empathique open-source de bout en bout

L'interaction empathique est un pilier de la communication homme-machine, en raison de la nécessité de comprendre le discours enrichi de signaux paralinguistiques et de générer des réponses émotionnelles et expressives. Cependant, les modèles de langage séquentiel les plus puissants (LSLM) deviennent de plus en plus fermés, laissant les détails cruciaux sur l'architecture, les données et le développement opaques pour les chercheurs. Étant donné le besoin critique d'une recherche transparente sur les LSLM et le comportement empathique, nous présentons OpenS2S, un modèle de langage séquentiel entièrement open-source, transparent et de bout en bout conçu pour permettre des interactions verbales empathiques. Basé sur notre modèle de reconnaissance empathique du discours BLSP-Emo, OpenS2S utilise une architecture de décodage alternée en flux pour atteindre une génération vocale à faible latence. Pour faciliter l'entraînement de bout en bout, OpenS2S intègre une chaîne automatisée de construction de données qui synthétise des dialogues vocaux empathiques diversifiés et de haute qualité à moindre coût. En utilisant des grands modèles linguistiques pour générer du contenu empathique et des systèmes contrôlables de synthèse vocale pour introduire des variations d'orateur et d'émotion, nous construisons un corpus d'entraînement évolutif avec une grande diversité paralinguistique et un minimum de supervision humaine. Nous mettons à disposition le modèle OpenS2S entièrement open-source, y compris le jeu de données, les poids du modèle, les codes d'entraînement préliminaire et d'affinage, afin d'empouvoir la communauté scientifique plus large et d'accélérer l'innovation dans les systèmes vocaux empathiques. La page web du projet peut être consultée à cette adresse URL : [this https URL]