
要約
Sparsespeechモデルは、未対応の音声データに対して離散的な疑似ラベルを生成できる非教師あり音響モデルである。本研究では、このSparsespeechモデルを拡張し、ランダムな離散変数に対するサンプリングを可能にした。これにより、疑似後験グラム(pseudo-posteriorgram)が得られる。この後験グラムのスパース性(疎性)は、モデル学習後でも完全に制御可能である。離散分布からの近似的なサンプリングを実現するために、Gumbel-Softmaxトリックをニューラルネットワーク内に導入した。これにより、標準的なバックプロパゲーションを用いた効率的なネットワーク学習が可能となった。改良されたこのモデルは、限られたまたは全く教師ラベルがない状況下での音声認識(ASR)を評価するためのベンチマークとして広く用いられるLibri-Lightコーパス上で学習および評価された。モデルの学習には、英語の朗読音声データとして600時間および6000時間のデータを用いた。評価では、ABX誤差指標および10時間分の対応音声データを用いた半教師あり設定を採用した。その結果、600時間分の音声データを用いた場合、テストセット全体で話者間をまたいで最大31.4%の相対的なABX誤差率の低減が確認された。さらに、モデルを6000時間分にスケーリングした場合には、さらなる性能向上が得られた。