OpenS2S: Vom Open-Source End-to-End empathischen großen Sprachmodell

Empathische Interaktion ist ein Eckpfeiler der Mensch-Maschine-Kommunikation aufgrund der Notwendigkeit, Sprechsignale mit paralinguistischen Hinweisen zu verstehen und emotionale und ausdrucksstarke Antworten zu generieren. Dennoch sind die leistungsfähigsten empathischen LSLMs (Large-Scale Language Models) zunehmend abgeschottet, sodass wichtige Details über Architektur, Daten und Entwicklung den Forschern untransparent bleiben. Angesichts der dringenden Notwendigkeit transparenter Forschung zu LSLMs und empathischem Verhalten präsentieren wir OpenS2S, ein vollständig quelloffenes, transparentes und end-to-end LSLM, das empathische Sprachinteraktionen ermöglichen soll. Basierend auf unserem empathischen Sprache-zu-Text-Modell BLSP-Emo verwendet OpenS2S eine strömende, ineinandergreifende Decodierarchitektur, um eine niedrige Latenz bei der Spracherzeugung zu erreichen. Um eine end-to-end-Ausbildung zu erleichtern, integriert OpenS2S einen automatisierten Datenkonstruktionspipeline, der vielfältige, hochwertige empathische Sprachdialoge zu geringen Kosten synthetisiert. Durch die Nutzung großer Sprachmodelle zur Generierung empathischer Inhalte und steuerbarer Text-zu-Sprache-Systeme zur Einführung von Sprecher- und Emotionsvariation erstellen wir ein skalierbares Trainingskorpus mit reicher paralinguistischer Vielfalt und minimaler menschlicher Überwachung. Wir veröffentlichen das vollständig quelloffene OpenS2S-Modell einschließlich des Datensatzes, der Modellgewichte sowie der Codes für das Pre-Training und Fine-Tuning, um die breitere Forschergemeinschaft zu stärken und Innovationen in empathischen Sprachsystemen zu beschleunigen. Die Projektwebseite kann unter dieser https-URL aufgerufen werden.