vor 17 Tagen

SpeechBERT: Ein audio- und textbasiert gemeinsam gelerntes Sprachmodell für end-to-end gesprochene Fragebeantwortung

Yung-Sung Chuang, Chi-Liang Liu, Hung-Yi Lee, Lin-shan Lee

Abstract

Obwohl in jüngster Zeit verschiedene End-to-End-Modelle für Aufgaben des gesprochenen Sprachverstehens erforscht wurden, stellt dieser Artikel vermutlich den ersten bekannten Versuch dar, die äußerst anspruchsvolle Aufgabe des End-to-End-Sprachfragenbeantwortens (Speech Question Answering, SQA) zu meistern. Angetrieben von dem hervorragenden Erfolg des BERT-Modells bei verschiedenen Textverarbeitungsaufgaben, stellen wir hier ein gemeinsam aus Audio- und Textdaten lernendes Modell namens SpeechBERT vor. Dieses Modell erreicht auf Datensätzen, die ASR-Fehler in den Antwortabschnitten enthalten, eine bessere Leistung als die herkömmliche Kaskadenarchitektur, die zunächst eine Spracherkennung (ASR) und anschließend ein Textfragenbeantwortungsmodell (TQA) verwendet. Der Grund hierfür liegt darin, dass das End-to-End-Modell in der Lage ist, Informationen aus den Audiodaten zu extrahieren, bevor ASR-Fehler auftreten. Durch die Kombination (Ensembling) des vorgeschlagenen End-to-End-Modells mit der Kaskadenarchitektur konnte sogar eine noch höhere Leistung erzielt werden. Neben dem Potenzial für End-to-End-SQA kann SpeechBERT zudem für zahlreiche andere Aufgaben des gesprochenen Sprachverstehens genutzt werden – ganz analog wie BERT für eine Vielzahl von Textverarbeitungsaufgaben.