HyperAIHyperAI

Command Palette

Search for a command to run...

Pré-entraînement de dialogue speech-text pour la compréhension du dialogue parlé avec alignement intermodal explicite

Tianshu Yu Haoyu Gao Ting-En Lin Min Yang Yuchuan Wu Wentao Ma Chao Wang Fei Huang Yongbin Li

Résumé

Récemment, les méthodes de pré-entraînement combinant parole et texte ont montré un succès remarquable dans de nombreuses tâches de traitement de la parole et du langage naturel. Cependant, la plupart des modèles pré-entraînés précédents sont généralement adaptés à une ou deux tâches spécifiques, mais échouent à maîtriser une large gamme de tâches combinant parole et texte. De plus, les méthodes actuelles de pré-entraînement combinant parole et texte ne parviennent pas à explorer les informations contextuelles au sein d'un dialogue pour enrichir les représentations des énoncés. Dans cet article, nous proposons le modèle de pré-entraînement de dialogue combinant parole et texte avec l'Alignement Modal Croisé Explicite (SPECTRA), qui est le premier modèle de pré-entraînement de dialogue combinant parole et texte. Plus précisément, pour prendre en compte la temporalité du modalité parlée, nous avons conçu une nouvelle tâche de prédiction de position temporelle visant à capturer l'alignement entre parole et texte. Cette tâche de pré-entraînement vise à prédire le temps de début et de fin de chaque mot textuel dans la forme d'onde correspondante. De plus, pour apprendre les caractéristiques des dialogues parlés, nous avons généralisé une tâche de sélection de réponse du pré-entraînement des dialogues textuels aux scénarios de pré-entraînement combinant parole et texte. Les résultats expérimentaux sur quatre tâches différentes en aval démontrent la supériorité de SPECTRA dans l'apprentissage de l'alignement entre parole et texte ainsi que du contexte multi-tours des dialogues.Note : - "ExpliCiT cRoss-Modal Alignment" a été traduit par "Alignement Modal Croisé Explicite (SPECTRA)" pour maintenir la clarté tout en conservant l'acronyme original.- "temporality of speech modality" a été traduit par "temporalité du modalité parlée" pour rester fidèle au terme technique.- "multi-turn dialog context" a été traduit par "contexte multi-tours des dialogues" pour refléter correctement le concept en français.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp