HyperAIHyperAI
vor 17 Tagen

End-to-End Spoken Conversational Question Answering: Aufgabe, Datensatz und Modell

Chenyu You, Nuo Chen, Fenglin Liu, Shen Ge, Xian Wu, Yuexian Zou
End-to-End Spoken Conversational Question Answering: Aufgabe, Datensatz und Modell
Abstract

Bei der gesprochenen Fragebeantwortung sind Systeme darauf ausgelegt, Fragen anhand kontinuierlicher Textabschnitte innerhalb zugehöriger Sprachtranskripte zu beantworten. Doch die natürlichste Art, wie Menschen ihr Wissen suchen oder überprüfen, erfolgt über menschliche Gespräche. Daher schlagen wir eine neue Aufgabe für gesprochene dialogbasierte Fragebeantwortung (Spoken Conversational Question Answering, SCQA) vor, die darauf abzielt, Systeme zu befähigen, komplexe Dialogflüsse anhand von Sprachdokumenten zu modellieren. In dieser Aufgabe besteht unser Hauptziel darin, Systeme zu entwickeln, die conversational gestellte Fragen auf der Grundlage von Audioaufnahmen bearbeiten können, und die Plausibilität zu untersuchen, wie zusätzliche Hinweise aus verschiedenen Modalitäten das Informationsbeschaffungsverhalten von Systemen verbessern können. Dazu vermeiden wir die direkte Nutzung automatisch generierter Transkripte mit hochgradig verrauschten Daten und stellen einen neuartigen, einheitlichen Ansatz zur Datendistillation, DDNet, vor, der Kreuzmodalitätinformationen effektiv integriert, um fein granulierte Darstellungen der Sprach- und Sprachmodalitäten zu erzielen. Darüber hinaus schlagen wir eine einfache und innovative Mechanik namens Dual Attention vor, die eine verbesserte Ausrichtung zwischen Audio- und Textinformationen fördert und somit den Prozess des Wissenstransfers erleichtert. Um die Fähigkeit von SCQA-Systemen in einer dialogbasierten Interaktion zu evaluieren, haben wir eine neue Datenbank für gesprochene dialogbasierte Fragebeantwortung (Spoken-CoQA) zusammengestellt, die über 40.000 Frage-Antwort-Paare aus 4.000 Gesprächen umfasst. Die Leistung bestehender State-of-the-Art-Methoden sinkt erheblich auf unserem Datensatz, was die Notwendigkeit einer Integration von Kreuzmodalitätsinformationen unterstreicht. Unsere experimentellen Ergebnisse zeigen, dass unser vorgeschlagener Ansatz eine überlegene Leistung bei Aufgaben der gesprochenen dialogbasierten Fragebeantwortung erzielt.

End-to-End Spoken Conversational Question Answering: Aufgabe, Datensatz und Modell | Neueste Forschungsarbeiten | HyperAI