11日前

自己教師あり学習モデルのファインチューニングによるエンドツーエンド音声スコアリング

{Hanaa Bayomi, Khaled T. Wassif, Aly A. Fahmy, Ahmed I. Zahran}
要約

自動発音評価モデルは、言語学習アプリケーションで頻繁に利用されている。一般的な発音評価手法としては、発音の良否を評価する「発音良否度(Goodness-of-Pronunciation: GOP)」アプローチや、深層学習に基づく音声認識モデルを用いたアプローチが用いられている。近年、Transformerの登場に伴い、事前学習済み自己教師学習(self-supervised learning: SSL)モデルが、文脈を反映した音声表現の抽出に活用されるようになり、さまざまな下流タスクにおいて性能の向上が見られている。本研究では、発音スコアリングを端末から端末まで(end-to-end)行う回帰モデル「E2E-R(end-to-end regressor)」を提案する。E2E-Rは2段階の訓練プロセスに基づいて学習される。第1段階では、事前学習済みSSLモデルを音素認識タスク上で微調整(fine-tuning)し、発音された音素に対するより良い表現を獲得する。第2段階では、転移学習を活用して、シメイズ神経ネットワーク(Siamese neural network)を用いて、発音された音素の表現と標準音素の埋め込み表現を比較し、最終的な発音スコアを出力する発音評価モデルを構築する。E2E-Rは、ピアソン相関係数(PCC)0.68を達成し、最新のGOPT-PAIIモデルとほぼ同等の性能を示した一方で、追加の母語話者音声データの学習や特徴量工学、外部の強制同期(forced alignment)モジュールの導入を不要とした。本研究の知見によれば、本稿は、原始音声波形に対して、事前学習済みSSLモデルを用いたエンド・ツー・エンドの音素レベル発音評価の初めての実装を報告するものである。