HyperAIHyperAI

Command Palette

Search for a command to run...

Requête et réponse conversationnelle parlée bout-en-bout : tâche, jeu de données et modèle

Chenyu You Nuo Chen Fenglin Liu Shen Ge Xian Wu Yuexian Zou

Résumé

Dans les systèmes de réponse à des questions orales, les modèles sont conçus pour répondre à des questions posées à partir de segments de texte continus extraits des transcriptions associées aux enregistrements audio. Toutefois, la manière la plus naturelle dont les humains cherchent ou testent leurs connaissances consiste à traverser des conversations humaines. Ainsi, nous proposons une nouvelle tâche de réponse à des questions conversationnelles orales (SCQA), visant à permettre aux systèmes de modéliser des flux de dialogue complexes à partir de documents audio. L'objectif principal de cette tâche est de concevoir des systèmes capables de traiter des questions conversationnelles fondées sur des enregistrements audio, tout en explorant la faisabilité d'apporter davantage de pistes provenant de différentes modalités pour améliorer la collecte d'informations. À cet effet, au lieu d'utiliser directement des transcriptions automatiques, souvent bruitées, nous proposons une nouvelle approche unifiée de distillation de données, nommée DDNet, qui intègre efficacement des informations croisées entre modalités afin d’obtenir des représentations fines des modalités audio et linguistique. Par ailleurs, nous introduisons un mécanisme simple mais novateur, appelé Dual Attention, qui encourage une meilleure alignement entre les signaux audio et textuels, facilitant ainsi le transfert de connaissance. Pour évaluer la capacité des systèmes SCQA à interagir dans un style dialogique, nous avons constitué un ensemble de données Spoken Conversational Question Answering (Spoken-CoQA), comprenant plus de 40 000 paires question-réponse issues de 4 000 conversations. Les performances des méthodes de pointe actuelles se dégradent fortement sur notre ensemble de données, ce qui démontre la nécessité d’intégrer efficacement des informations croisées entre modalités. Nos résultats expérimentaux montrent que la méthode proposée atteint des performances supérieures dans les tâches de réponse à des questions conversationnelles orales.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Requête et réponse conversationnelle parlée bout-en-bout : tâche, jeu de données et modèle | Articles | HyperAI