HyperAIHyperAI

Command Palette

Search for a command to run...

エンドツーエンドASR:現代のアーキテクチャを用いた教師あり学習から半教師あり学習へ

Gabriel Synnaeve Qiantong Xu Jacob Kahn Tatiana Likhomanenko Edouard Grave Vineel Pratap Anuroop Sriram Vitaliy Liptchinsky Ronan Collobert

概要

本研究では、音声認識に用いられるResNet、Time-Depth Separable ConvNet、およびTransformerモデルについて、CTCまたはSeq2Seq損失関数を用いた半教師あり学習における擬似ラベル化(pseudo-labeling)手法を検討する。標準的なLibriSpeechデータセット上で実験を行い、LibriVoxから得られる追加のラベルなし音声データを擬似ラベル化を用いて活用する。その結果、教師あり学習のみでTransformerベースの音響モデルが優れた性能を示すものの、半教師あり学習によってあらゆるアーキテクチャおよび損失関数においてモデル性能が向上し、各モデル間の性能差を大幅に縮小することが明らかになった。さらに、外部言語モデルを用いたデコードを行うエンドツーエンド音響モデルにおいて、従来の教師あり学習設定で新たな最良性能(state-of-the-art)を達成するとともに、半教師あり学習では絶対的な新たな最良性能を実現した。最後に、利用するラベルなし音声データの量の違いがモデルに与える影響を検討し、ラベルなし音声データの特性を評価するための複数の手法を提案。その結果、より多くの音声データを用いて学習された音響モデルは、外部言語モデルへの依存度が低くなることが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています