HyperAIHyperAI

Command Palette

Search for a command to run...

SpeechBERT:エンドツーエンド音声質問応答のための音声・テキスト共同学習型言語モデル

Yung-Sung Chuang Chi-Liang Liu Hung-Yi Lee Lin-shan Lee

概要

近年、音声言語理解タスクに対するさまざまなエンドツーエンドモデルが検討されてきたが、本論文はおそらく、極めて困難なエンドツーエンド音声質問応答(SQA)タスクに挑戦した最初の知られている試みである。様々なテキスト処理タスクにおいて高い成功を収めたBERTモデルの学習アプローチに着想を得て、本研究では音声とテキストを統合的に学習するSpeechBERTモデルを提案する。このモデルは、ASR誤りが回答部分に含まれるデータセットにおいて、従来のASRを用いたカスケード型アーキテクチャ(ASR後に続くテキスト質問応答(TQA)モデル)よりも優れた性能を発揮した。その理由として、エンドツーエンドモデルがASRによる誤りが生じる前に音声データから情報を抽出できることが示された。さらに、提案するエンドツーエンドモデルとカスケード構造をアンサンブルすることで、さらに高い性能が達成された。本研究の成果は、エンドツーエンドSQAの可能性を示すとともに、BERTが多くのテキスト処理タスクに応用可能なように、SpeechBERTも他の多くの音声言語理解タスクへの応用が期待できる。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SpeechBERT:エンドツーエンド音声質問応答のための音声・テキスト共同学習型言語モデル | 記事 | HyperAI超神経