HyperAIHyperAI

Command Palette

Search for a command to run...

音声合成を用いたエンドツーエンド型 spoken language understanding モデルの訓練

Loren Lugosch Brett Meyer Derek Nowrouzezahrai Mirco Ravanelli

概要

エンドツーエンドモデルは、従来のパイプライン(別々に学習された音声認識モジュールと自然言語理解モジュールから構成)を用いないで、原始的な音声データから発話の意味を直接推定する、スプーケン言語理解(SLU)における魅力的な新アプローチである。しかし、エンドツーエンドSLUの課題として、モデルの学習には領域内(in-domain)の音声データを収録する必要があることが挙げられる。本論文では、この制約を克服するための戦略を提案する。具体的には、複数の人工発話者から生成された音声を用いて、大量の合成学習データセットを合成する手法を採用する。2つのオープンソースSLUデータセットを用いた実験により、本手法の有効性が確認された。これは、学習データの唯一のソースとして用いられる場合にも、またデータ増強(data augmentation)の手段として用いられる場合にも有効であることが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
音声合成を用いたエンドツーエンド型 spoken language understanding モデルの訓練 | 記事 | HyperAI超神経