HyperAIHyperAI
il y a 17 jours

Requête et réponse conversationnelle parlée bout-en-bout : tâche, jeu de données et modèle

Chenyu You, Nuo Chen, Fenglin Liu, Shen Ge, Xian Wu, Yuexian Zou
Requête et réponse conversationnelle parlée bout-en-bout : tâche, jeu de données et modèle
Résumé

Dans les systèmes de réponse à des questions orales, les modèles sont conçus pour répondre à des questions posées à partir de segments de texte continus extraits des transcriptions associées aux enregistrements audio. Toutefois, la manière la plus naturelle dont les humains cherchent ou testent leurs connaissances consiste à traverser des conversations humaines. Ainsi, nous proposons une nouvelle tâche de réponse à des questions conversationnelles orales (SCQA), visant à permettre aux systèmes de modéliser des flux de dialogue complexes à partir de documents audio. L'objectif principal de cette tâche est de concevoir des systèmes capables de traiter des questions conversationnelles fondées sur des enregistrements audio, tout en explorant la faisabilité d'apporter davantage de pistes provenant de différentes modalités pour améliorer la collecte d'informations. À cet effet, au lieu d'utiliser directement des transcriptions automatiques, souvent bruitées, nous proposons une nouvelle approche unifiée de distillation de données, nommée DDNet, qui intègre efficacement des informations croisées entre modalités afin d’obtenir des représentations fines des modalités audio et linguistique. Par ailleurs, nous introduisons un mécanisme simple mais novateur, appelé Dual Attention, qui encourage une meilleure alignement entre les signaux audio et textuels, facilitant ainsi le transfert de connaissance. Pour évaluer la capacité des systèmes SCQA à interagir dans un style dialogique, nous avons constitué un ensemble de données Spoken Conversational Question Answering (Spoken-CoQA), comprenant plus de 40 000 paires question-réponse issues de 4 000 conversations. Les performances des méthodes de pointe actuelles se dégradent fortement sur notre ensemble de données, ce qui démontre la nécessité d’intégrer efficacement des informations croisées entre modalités. Nos résultats expérimentaux montrent que la méthode proposée atteint des performances supérieures dans les tâches de réponse à des questions conversationnelles orales.

Requête et réponse conversationnelle parlée bout-en-bout : tâche, jeu de données et modèle | Articles de recherche récents | HyperAI