HyperAIHyperAI

Command Palette

Search for a command to run...

音声モデルの事前学習におけるエンドツーエンド音声言語理解

Loren Lugosch Mirco Ravanelli Patrick Ignoto Vikrant Singh Tomar Yoshua Bengio

概要

従来の音声言語理解(SLU)システムは、音声をテキストにマッピングし、その後テキストを意図にマッピングするのに対し、エンドツーエンドのSLUシステムは単一の学習可能なモデルを通じて音声を直接意図にマッピングします。これらのエンドツーエンドモデルで高精度を達成するには、大量の訓練データが必要であるため困難です。本研究では、モデルがまず単語と音素を予測するために事前学習を行うことで、SLUに適した良い特徴量を学習し、エンドツーエンドSLUのデータ要件を削減する方法を提案します。また、新しいSLUデータセット「Fluent Speech Commands」を導入し、当該方法が全データセットを使用した場合でも一部のみを使用した場合でも性能向上に寄与することを示しています。さらに、訓練中に聞かなかった新たなフレーズへの汎化能力を評価する初期実験についても説明します。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています