1ヶ月前

概要

音声言語モデル（Audio Language Models, ALM）は、音声や音楽の生成において、音声を離散トークンの系列として表現するという主流の枠組みとして登場した。しかし、テキストトークンとは異なり、音声トークンはビットレートが限られた非可逆圧縮方式（損失ありコーデック）から抽出されるため、再構成の自由度が制限されている。その結果、音声品質を向上させるにはより多くのトークンを生成する必要があり、これにより再現性と計算コストのトレードオフが生じる。本研究では、連続型音声言語モデル（Continuous Audio Language Models, CALM）を提案し、この課題に取り組む。CALMは、各時刻ごとに文脈を反映した埋め込み表現を生成する大規模なTransformerバックボーンを採用する。この逐次的な情報を基に、次の連続的な音声VAEフレームを一貫性モデリングにより生成するMLPを条件づける。非可逆圧縮を回避することで、CALMは離散型モデルと比較して、より高い品質を、より低い計算コストで実現できる。音声および音楽に対する実験により、最先端の離散型音声言語モデルと比較して、効率性と再現性の両面で優れた性能を示した。これにより、軽量かつ高品質な音声生成が可能となった。サンプルは以下のURLで公開されている。さらに、ラップトップのCPU上でリアルタイムを超える速度で動作可能な、オープンソースの1億パラメータ級テキストから音声への変換モデル「Pocket TTS」を公開した。詳細は以下のURLを参照。

ソースPDF コードを表示