HyperAI

Ensemble De Données D'optimisation De L'assistant Vocal VoiceAssistant-400K

Date

il y a 8 mois

Taille

189.87 GB

Organisation

Université Tsinghua

URL de publication

github.com

VoiceAssistant-400K est un ensemble de données optimisé pour les assistants vocaux. Son objectif est d'aider le modèle à réduire la génération de symboles de code lors de la fourniture de services d'assistant vocal et d'améliorer la praticité du modèle dans les applications réelles. Cet ensemble de données a été développé pour former et optimiser la sortie vocale du modèle Mini-Omni. Il a été lancé par une équipe de recherche de l'Université Tsinghua en 2024. Les résultats pertinents de l'article sont «Mini-Omni : les modèles de langage peuvent entendre et parler tout en pensant en streamingMini-Omni est un modèle linguistique multimodal open source à grande échelle, doté de capacités de conversation en temps réel et de capacités d'entrée et de sortie vocales de bout en bout. Grâce à une approche unique de génération parallèle guidée par le texte, le raisonnement vocal est cohérent avec les capacités textuelles, ne nécessitant qu'un minimum de données et de modules supplémentaires.

L'ensemble de données VoiceAssistant-400K optimise les adaptateurs parole-texte et texte-parole grâce à un processus de formation en trois étapes pour soutenir les performances des modèles lors de la fourniture de services d'assistant vocal. Ces étapes comprennent l’alignement des modalités, la formation à l’adaptation et le réglage fin multimodal. Dans la phase d'alignement des modalités, les capacités de reconnaissance et de synthèse vocales du modèle sont entraînées en utilisant des données issues de la reconnaissance et de la synthèse vocales. La phase de formation d’adaptation se concentre sur la formation des capacités textuelles du modèle à partir d’une entrée audio. L’étape finale de réglage multimodal utilise les données synthétiques pour affiner l’ensemble du modèle afin de garantir la qualité de la sortie multimodale.

VoiceAssistant-400K.torrent
Partage 1Téléchargement 1Terminés 102Téléchargements totaux 86
  • VoiceAssistant-400K/
    • README.md
      1.97 KB
    • README.txt
      3.95 KB
      • data/
        • VoiceAssistant-400K.zip
          189.87 GB