2ヶ月前

音声モデルの事前学習におけるエンドツーエンド音声言語理解

Loren Lugosch; Mirco Ravanelli; Patrick Ignoto; Vikrant Singh Tomar; Yoshua Bengio
音声モデルの事前学習におけるエンドツーエンド音声言語理解
要約

従来の音声言語理解(SLU)システムは、音声をテキストにマッピングし、その後テキストを意図にマッピングするのに対し、エンドツーエンドのSLUシステムは単一の学習可能なモデルを通じて音声を直接意図にマッピングします。これらのエンドツーエンドモデルで高精度を達成するには、大量の訓練データが必要であるため困難です。本研究では、モデルがまず単語と音素を予測するために事前学習を行うことで、SLUに適した良い特徴量を学習し、エンドツーエンドSLUのデータ要件を削減する方法を提案します。また、新しいSLUデータセット「Fluent Speech Commands」を導入し、当該方法が全データセットを使用した場合でも一部のみを使用した場合でも性能向上に寄与することを示しています。さらに、訓練中に聞かなかった新たなフレーズへの汎化能力を評価する初期実験についても説明します。