17日前

SpeechBERT:エンドツーエンド音声質問応答のための音声・テキスト共同学習型言語モデル

Yung-Sung Chuang, Chi-Liang Liu, Hung-Yi Lee, Lin-shan Lee
SpeechBERT:エンドツーエンド音声質問応答のための音声・テキスト共同学習型言語モデル
要約

近年、音声言語理解タスクに対するさまざまなエンドツーエンドモデルが検討されてきたが、本論文はおそらく、極めて困難なエンドツーエンド音声質問応答(SQA)タスクに挑戦した最初の知られている試みである。様々なテキスト処理タスクにおいて高い成功を収めたBERTモデルの学習アプローチに着想を得て、本研究では音声とテキストを統合的に学習するSpeechBERTモデルを提案する。このモデルは、ASR誤りが回答部分に含まれるデータセットにおいて、従来のASRを用いたカスケード型アーキテクチャ(ASR後に続くテキスト質問応答(TQA)モデル)よりも優れた性能を発揮した。その理由として、エンドツーエンドモデルがASRによる誤りが生じる前に音声データから情報を抽出できることが示された。さらに、提案するエンドツーエンドモデルとカスケード構造をアンサンブルすることで、さらに高い性能が達成された。本研究の成果は、エンドツーエンドSQAの可能性を示すとともに、BERTが多くのテキスト処理タスクに応用可能なように、SpeechBERTも他の多くの音声言語理解タスクへの応用が期待できる。

SpeechBERT:エンドツーエンド音声質問応答のための音声・テキスト共同学習型言語モデル | 最新論文 | HyperAI超神経