テキストフリー Prosody に配慮した生成型 spoken Language Modeling

音声の事前学習は、主に分類タスクにおいて有効性が示されてきたが、GPT-2が一貫した段落を生成できるように、新しい音声を生成する能力についてはほとんど検討されていない。生成型音声言語モデリング(Generative Spoken Language Modeling; GSLM)\cite{Lakhotia2021} は、音声の事前学習における生成的側面に唯一取り組んだ先行研究であり、言語モデリングのためにテキストの代わりに発見された音素類似単位を用いることで、意味のある新しい文の生成が可能であることを示している。しかしながら、テキストの必要性を排除したものの、GSLMで用いられる単位は大部分のプロソディック情報(韻律情報)を失ってしまう。その結果、GSLMは韻律を活用して理解を向上させることができず、表現豊かな音声の生成も行えない。本研究では、韻律に配慮した生成型音声言語モデル(prosody-aware generative spoken language model; pGSLM)を提案する。本モデルは、発見された単位と韻律特徴の2つのストリームを備えたマルチストリーム変換器言語モデル(multi-stream transformer language model; MS-TLM)と、MS-TLMの出力を波形に変換するように適応したHiFi-GANモデルから構成される。また、韻律モデリングおよび生成のための一連の評価指標を設計し、GSLMで用いられた指標を内容モデリングに再利用する。実験結果から、pGSLMは韻律を活用して韻律モデリングおよびコンテンツモデリングの両方を向上させることができ、また、音声プロンプトを入力として自然で意味的かつ一貫性のある音声を生成できることを示した。音声サンプルは https://speechbot.github.io/pgslm にて確認可能である。コードおよびモデルは https://github.com/pytorch/fairseq/tree/main/examples/textless_nlp/pgslm から入手できる。