HyperAIHyperAI

Command Palette

Search for a command to run...

SpeechBERT: Ein audio- und textbasiert gemeinsam gelerntes Sprachmodell für end-to-end gesprochene Fragebeantwortung

Yung-Sung Chuang Chi-Liang Liu Hung-Yi Lee Lin-shan Lee

Zusammenfassung

Obwohl in jüngster Zeit verschiedene End-to-End-Modelle für Aufgaben des gesprochenen Sprachverstehens erforscht wurden, stellt dieser Artikel vermutlich den ersten bekannten Versuch dar, die äußerst anspruchsvolle Aufgabe des End-to-End-Sprachfragenbeantwortens (Speech Question Answering, SQA) zu meistern. Angetrieben von dem hervorragenden Erfolg des BERT-Modells bei verschiedenen Textverarbeitungsaufgaben, stellen wir hier ein gemeinsam aus Audio- und Textdaten lernendes Modell namens SpeechBERT vor. Dieses Modell erreicht auf Datensätzen, die ASR-Fehler in den Antwortabschnitten enthalten, eine bessere Leistung als die herkömmliche Kaskadenarchitektur, die zunächst eine Spracherkennung (ASR) und anschließend ein Textfragenbeantwortungsmodell (TQA) verwendet. Der Grund hierfür liegt darin, dass das End-to-End-Modell in der Lage ist, Informationen aus den Audiodaten zu extrahieren, bevor ASR-Fehler auftreten. Durch die Kombination (Ensembling) des vorgeschlagenen End-to-End-Modells mit der Kaskadenarchitektur konnte sogar eine noch höhere Leistung erzielt werden. Neben dem Potenzial für End-to-End-SQA kann SpeechBERT zudem für zahlreiche andere Aufgaben des gesprochenen Sprachverstehens genutzt werden – ganz analog wie BERT für eine Vielzahl von Textverarbeitungsaufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp