2ヶ月前
UniAudio: 万能音声生成を目指す音声基盤モデル
Yang, Dongchao ; Tian, Jinchuan ; Tan, Xu ; Huang, Rongjie ; Liu, Songxiang ; Chang, Xuankai ; Shi, Jiatong ; Zhao, Sheng ; Bian, Jiang ; Zhao, Zhou ; Wu, Xixin ; Meng, Helen

要約
大規模言語モデル(LLM)は、さまざまな生成タスクを処理する能力を示しています。本論文では、UniAudioシステムを紹介します。このシステムは、従来のタスク固有のアプローチとは異なり、LLMの技術を利用して与えられた入力条件に基づいて複数種類の音声(スピーチ、サウンド、音楽、歌唱など)を生成します。UniAudioは1)まずすべての種類の目標音声と他の条件モダリティをトークン化し、2)ソース-ターゲットペアを単一のシーケンスに連結し、3)LLMを使用して次のトークン予測を行います。また、トークン化において残留ベクトル量子化ベースのニューラルコーデックによって引き起こされる過度に長いシーケンスを処理するために、マルチスケールトランスフォーマー模型が提案されています。UniAudioの訓練は、すべての生成タスクに基づき16万5千時間の音声データと10億パラメータで拡大され、音声自体の内在的な特性だけでなく音声と他のモダリティとの関連性についても十分な事前知識を得ることを目指しています。したがって、訓練されたUniAudioモデルは普遍的な音声生成用の基礎モデルとなる可能性があり:訓練されたすべてのタスクで強力な能力を示すだけでなく、簡単な微調整後には新しい音声生成タスクをシームレスにサポートできます。実験結果から、UniAudioは11つのタスクにおける大部分で最先端または競合する結果を達成していることが示されています。デモとコードは以下のURLで公開されています:https://github.com/yangdongchao/UniAudio