2ヶ月前
ベクトル量子化ニューラルネットワークを用いたZeroSpeech 2020チャレンジにおける音響単位の探索
Benjamin van Niekerk; Leanne Nortje; Herman Kamper

要約
本論文では、音響単位の発見にベクトル量子化を応用することを検討します。ラベル付けされていないデータを活用し、話者固有の詳細から音韻内容を分離する離散的な音声表現を学習することを目指しています。この課題に対処するために、2つのニューラルモデルを提案します。両モデルとも、連続的な特徴量を有限のコード集合にマッピングするためにベクトル量子化を使用します。最初のモデルは、ベクトル量子化変分オートエンコーダ(VQ-VAE)の一種です。VQ-VAEは、音声を離散単位の系列にエンコードした後、オーディオ波形を再構築します。2番目のモデルは、ベクトル量子化と対照的予測符号化(VQ-CPC)を組み合わせています。このアイデアは、将来の音響単位を予測することで音声表現を学習することです。これらのモデルは、ZeroSpeech 2020チャレンジにおいて英語とインドネシア語のデータで評価されました。ABX電話区別テストにおいて、両モデルとも2019年および2020年のチャレンジへの全ての提出作品を超える性能を示し、相対的に30%以上の改善が見られました。また、これらのモデルは下流のボイスコンバージョンタスクでも競争力のある結果を出しています。2つのモデルの中で、VQ-CPCが一般的にやや優れた性能を示し、訓練がより簡単かつ速いことが確認されました。最後に、探査実験によりベクトル量子化が効果的なボトルネックとなり、モデルが話者情報を破棄することを強制していることが明らかになりました。