HyperAIHyperAI
il y a 2 mois

Pré-entraînement de dialogue speech-text pour la compréhension du dialogue parlé avec alignement intermodal explicite

Tianshu Yu; Haoyu Gao; Ting-En Lin; Min Yang; Yuchuan Wu; Wentao Ma; Chao Wang; Fei Huang; Yongbin Li
Pré-entraînement de dialogue speech-text pour la compréhension du dialogue parlé avec alignement intermodal explicite
Résumé

Récemment, les méthodes de pré-entraînement combinant parole et texte ont montré un succès remarquable dans de nombreuses tâches de traitement de la parole et du langage naturel. Cependant, la plupart des modèles pré-entraînés précédents sont généralement adaptés à une ou deux tâches spécifiques, mais échouent à maîtriser une large gamme de tâches combinant parole et texte. De plus, les méthodes actuelles de pré-entraînement combinant parole et texte ne parviennent pas à explorer les informations contextuelles au sein d'un dialogue pour enrichir les représentations des énoncés. Dans cet article, nous proposons le modèle de pré-entraînement de dialogue combinant parole et texte avec l'Alignement Modal Croisé Explicite (SPECTRA), qui est le premier modèle de pré-entraînement de dialogue combinant parole et texte. Plus précisément, pour prendre en compte la temporalité du modalité parlée, nous avons conçu une nouvelle tâche de prédiction de position temporelle visant à capturer l'alignement entre parole et texte. Cette tâche de pré-entraînement vise à prédire le temps de début et de fin de chaque mot textuel dans la forme d'onde correspondante. De plus, pour apprendre les caractéristiques des dialogues parlés, nous avons généralisé une tâche de sélection de réponse du pré-entraînement des dialogues textuels aux scénarios de pré-entraînement combinant parole et texte. Les résultats expérimentaux sur quatre tâches différentes en aval démontrent la supériorité de SPECTRA dans l'apprentissage de l'alignement entre parole et texte ainsi que du contexte multi-tours des dialogues.Note : - "ExpliCiT cRoss-Modal Alignment" a été traduit par "Alignement Modal Croisé Explicite (SPECTRA)" pour maintenir la clarté tout en conservant l'acronyme original.- "temporality of speech modality" a été traduit par "temporalité du modalité parlée" pour rester fidèle au terme technique.- "multi-turn dialog context" a été traduit par "contexte multi-tours des dialogues" pour refléter correctement le concept en français.

Pré-entraînement de dialogue speech-text pour la compréhension du dialogue parlé avec alignement intermodal explicite | Articles de recherche récents | HyperAI