VoiceAssistant-400K-Datensatz Zur Optimierung Des Sprachassistenten
Datum
Größe
Veröffentlichungs-URL
Kategorien
VoiceAssistant-400K ist ein für Sprachassistenten optimierter Datensatz. Es soll dem Modell helfen, die Generierung von Codesymbolen bei der Bereitstellung von Sprachassistentendiensten zu reduzieren und die Praktikabilität des Modells in realen Anwendungen zu verbessern. Dieser Datensatz wurde entwickelt, um die Sprachausgabe des Mini-Omni-Modells zu trainieren und zu optimieren. Es wurde 2024 von einem Forschungsteam der Tsinghua-Universität ins Leben gerufen. Die relevanten Ergebnisse des Papiers sind „Mini-Omni: Sprachmodelle können hören, sprechen und gleichzeitig im Streaming denkenMini-Omni ist ein multimodales Open-Source-Sprachmodell im großen Maßstab mit Echtzeit-Konversationsfunktionen und durchgängigen Spracheingabe- und -ausgabefunktionen. Durch einen einzigartigen textgesteuerten Ansatz zur parallelen Generierung wird eine Sprachschlussfolgerungsausgabe erreicht, die mit den Textfunktionen übereinstimmt und nur minimale zusätzliche Daten und Module erfordert.
Der VoiceAssistant-400K-Datensatz optimiert Sprach-zu-Text- und Text-zu-Sprache-Adapter durch einen dreistufigen Trainingsprozess, um die Leistung der Modelle bei der Bereitstellung von Sprachassistenzdiensten zu unterstützen. Zu diesen Phasen gehören die Modalitätenanpassung, das Anpassungstraining und die multimodale Feinabstimmung. In der Modalitätsausrichtungsphase werden die Spracherkennungs- und Sprachsynthesefunktionen des Modells mithilfe von Daten aus der Spracherkennung und Sprachsynthese trainiert. In der Anpassungstrainingsphase liegt der Schwerpunkt auf dem Training der Textfähigkeiten des Modells anhand von Audioeingaben. In der letzten Phase der multimodalen Feinabstimmung werden die synthetischen Daten verwendet, um das gesamte Modell zu optimieren und so die Qualität der multimodalen Ausgabe sicherzustellen.