HyperAIHyperAI

Command Palette

Search for a command to run...

連続音声言語モデル

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

概要

音声言語モデル(Audio Language Models, ALM)は、音声や音楽の生成において、音声を離散トークンの系列として表現するという主流の枠組みとして登場した。しかし、テキストトークンとは異なり、音声トークンはビットレートが限られた非可逆圧縮方式(損失ありコーデック)から抽出されるため、再構成の自由度が制限されている。その結果、音声品質を向上させるにはより多くのトークンを生成する必要があり、これにより再現性と計算コストのトレードオフが生じる。本研究では、連続型音声言語モデル(Continuous Audio Language Models, CALM)を提案し、この課題に取り組む。CALMは、各時刻ごとに文脈を反映した埋め込み表現を生成する大規模なTransformerバックボーンを採用する。この逐次的な情報を基に、次の連続的な音声VAEフレームを一貫性モデリングにより生成するMLPを条件づける。非可逆圧縮を回避することで、CALMは離散型モデルと比較して、より高い品質を、より低い計算コストで実現できる。音声および音楽に対する実験により、最先端の離散型音声言語モデルと比較して、効率性と再現性の両面で優れた性能を示した。これにより、軽量かつ高品質な音声生成が可能となった。サンプルは以下のURLで公開されている。さらに、ラップトップのCPU上でリアルタイムを超える速度で動作可能な、オープンソースの1億パラメータ級テキストから音声への変換モデル「Pocket TTS」を公開した。詳細は以下のURLを参照。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
連続音声言語モデル | 記事 | HyperAI超神経