HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données d'optimisation De l'assistant Vocal VoiceAssistant-400K

Date

il y a un an

Taille

189.87 GB

Organisation

Université Tsinghua

URL de publication

github.com

URL du document

arxiv.org

VoiceAssistant-400K est un ensemble de données optimisé pour les assistants vocaux. Son objectif est d'aider le modèle à réduire la génération de symboles de code lors de la fourniture de services d'assistant vocal et d'améliorer la praticité du modèle dans les applications réelles. Cet ensemble de données a été développé pour former et optimiser la sortie vocale du modèle Mini-Omni. Il a été lancé par une équipe de recherche de l'Université Tsinghua en 2024. Les résultats pertinents de l'article sont «Mini-Omni : les modèles de langage peuvent entendre et parler tout en pensant en streamingMini-Omni est un modèle linguistique multimodal open source à grande échelle, doté de capacités de conversation en temps réel et de capacités d'entrée et de sortie vocales de bout en bout. Grâce à une approche unique de génération parallèle guidée par le texte, le raisonnement vocal est cohérent avec les capacités textuelles, ne nécessitant qu'un minimum de données et de modules supplémentaires.

L'ensemble de données VoiceAssistant-400K optimise les adaptateurs parole-texte et texte-parole grâce à un processus de formation en trois étapes pour soutenir les performances des modèles lors de la fourniture de services d'assistant vocal. Ces étapes comprennent l’alignement des modalités, la formation à l’adaptation et le réglage fin multimodal. Dans la phase d'alignement des modalités, les capacités de reconnaissance et de synthèse vocales du modèle sont entraînées en utilisant des données issues de la reconnaissance et de la synthèse vocales. La phase de formation d’adaptation se concentre sur la formation des capacités textuelles du modèle à partir d’une entrée audio. L’étape finale de réglage multimodal utilise les données synthétiques pour affiner l’ensemble du modèle afin de garantir la qualité de la sortie multimodale.

VoiceAssistant-400K.torrent
Seeding 1Téléchargement 0Terminé 279Total Downloads 287
  • VoiceAssistant-400K/
    • README.md
      1.97 KB
    • README.txt
      3.95 KB
      • data/
        • VoiceAssistant-400K.zip
          189.87 GB

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp