HyperAIHyperAI
il y a 17 jours

SpeechBERT : un modèle linguistique appris conjointement sur audio et texte pour la réponse à des questions parlées en bout en bout

Yung-Sung Chuang, Chi-Liang Liu, Hung-Yi Lee, Lin-shan Lee
SpeechBERT : un modèle linguistique appris conjointement sur audio et texte pour la réponse à des questions parlées en bout en bout
Résumé

Bien que divers modèles end-to-end pour les tâches de compréhension du langage parlé aient été récemment explorés, ce papier constitue probablement la première tentative connue visant à relever le défi particulièrement difficile de la question-réponse parlée end-to-end (SQA). Inspiré du succès du modèle BERT pour diverses tâches de traitement du texte, nous proposons ici un modèle SpeechBERT appris conjointement sur les données audio et textuelles. Ce modèle surpasse l'approche classique basée sur la cascade entre un système de reconnaissance automatique de la parole (ASR) et un modèle de question-réponse textuelle (TQA) sur des jeux de données incluant des erreurs d'ASR dans les segments de réponse, car le modèle end-to-end démontre sa capacité à extraire l'information à partir des données audio avant que l'ASR ne produise des erreurs. L'ensemblage du modèle end-to-end proposé avec l'architecture en cascade permet d'obtenir des performances encore meilleures. En plus du potentiel du modèle SQA end-to-end, SpeechBERT peut également être envisagé pour de nombreuses autres tâches de compréhension du langage parlé, tout comme BERT l'est pour de nombreuses tâches de traitement du texte.

SpeechBERT : un modèle linguistique appris conjointement sur audio et texte pour la réponse à des questions parlées en bout en bout | Articles de recherche récents | HyperAI