Command Palette
Search for a command to run...
EchoX : Vers la réduction de l'écart acoustique-sémantique grâce à l'entraînement par écho pour les modèles linguistiques parlés
Yuhao Zhang Yuhao Du Zhanchen Dai Xiangnan Ma Kaiqi Kou Benyou Wang Haizhou Li

Résumé
Les modèles de langage à grande échelle basés sur la parole (SLLMs) suscitent un intérêt croissant. Dérivés des modèles de langage à grande échelle (LLMs) fondés sur le texte, les SLLMs présentent souvent une dégradation des capacités de connaissance et de raisonnement. Nous supposons que cette limitation provient du fait que les paradigmes actuels d'entraînement des SLLMs échouent à combler l'écart acoustico-sémantique dans l'espace de représentation des caractéristiques. Pour remédier à ce problème, nous proposons EchoX, qui exploite des représentations sémantiques et génère dynamiquement des cibles d'entraînement en parole. Cette approche intègre à la fois l'apprentissage acoustique et sémantique, permettant à EchoX de préserver de fortes capacités de raisonnement tout en restant un modèle de langage à grande échelle basé sur la parole. Les résultats expérimentaux montrent qu’avec environ six mille heures de données d’entraînement, EchoX atteint des performances avancées sur plusieurs benchmarks de questions-réponses fondées sur la connaissance. Le projet est disponible à l’adresse suivante : https://github.com/FreedomIntelligence/EchoX.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.