17日前

音声合成を用いたエンドツーエンド型 spoken language understanding モデルの訓練

Loren Lugosch, Brett Meyer, Derek Nowrouzezahrai, Mirco Ravanelli
音声合成を用いたエンドツーエンド型 spoken language understanding モデルの訓練
要約

エンドツーエンドモデルは、従来のパイプライン(別々に学習された音声認識モジュールと自然言語理解モジュールから構成)を用いないで、原始的な音声データから発話の意味を直接推定する、スプーケン言語理解(SLU)における魅力的な新アプローチである。しかし、エンドツーエンドSLUの課題として、モデルの学習には領域内(in-domain)の音声データを収録する必要があることが挙げられる。本論文では、この制約を克服するための戦略を提案する。具体的には、複数の人工発話者から生成された音声を用いて、大量の合成学習データセットを合成する手法を採用する。2つのオープンソースSLUデータセットを用いた実験により、本手法の有効性が確認された。これは、学習データの唯一のソースとして用いられる場合にも、またデータ増強(data augmentation)の手段として用いられる場合にも有効であることが示された。