9日前
AudioLM:音声生成における言語モデルアプローチ
Zalán Borsos, Raphaël Marinier, Damien Vincent, Eugene Kharitonov, Olivier Pietquin, Matt Sharifi, Dominik Roblek, Olivier Teboul, David Grangier, Marco Tagliasacchi, Neil Zeghidour

要約
AudioLMを紹介する。これは、長期的な一貫性を保ちつつ高品質な音声生成を実現するためのフレームワークである。AudioLMは入力音声を離散トークンの系列に変換し、音声生成をこの表現空間における言語モデル化タスクとして定式化する。既存の音声トークナイザが再構成品質と長期的構造の間で異なるトレードオフを提供することを示し、両方の目的を達成するためのハイブリッドトークナイゼーション方式を提案する。具体的には、音声データ上で事前学習されたマスク言語モデルの離散化された活性化を用いて長期的構造を捉え、ニューラル音声コーデックによって生成される離散コードを用いて高品質な合成を実現する。大規模な原始音声波形コーパス上で学習することで、AudioLMは短いプロンプトを与えられた際に自然で一貫した音声の継続を生成する能力を獲得する。特に、音声データで学習した場合、文書やラベル情報なしに、話者の識別性や韻律を未観測の話者に対しても維持しつつ、構文的にも意味的にも妥当な音声の継続を生成することが可能である。さらに、本研究では、音楽の記号表現を一切用いずに学習したにもかかわらず、一貫性のあるピアノ音楽の継続生成が可能であることを示し、本手法が音声にとどまらず、音楽分野にも拡張可能であることを実証している。