2ヶ月前

AudioLDM 2: 自教師学習による包括的な音声生成の学習

Liu, Haohe ; Yuan, Yi ; Liu, Xubo ; Mei, Xinhao ; Kong, Qiuqiang ; Tian, Qiao ; Wang, Yuping ; Wang, Wenwu ; Wang, Yuxuan ; Plumbley, Mark D.
AudioLDM 2: 自教師学習による包括的な音声生成の学習
要約

音声生成は、会話、音楽、効果音などの異なる種類の音声に共通する特徴を有していますが、各タイプのモデル設計には、他のタイプとは大きく異なる特定の目的やバイアスを慎重に考慮する必要があります。本論文では、これらの違いを超えて統一的な音声生成の視点に近づくため、会話、音楽、効果音生成に同じ学習方法を使用するフレームワークを提案します。当該フレームワークでは、「オーディオ言語」(Language of Audio: LOA)と呼ばれる一般的な音声表現を導入しています。任意の音声は、自己教師あり事前学習表現モデルであるAudioMAEに基づいてLOAに変換することができます。生成プロセスにおいては、GPT-2モデルを使用して任意のモダリティをLOAに変換し、LOAを条件とする潜在拡散モデルで自己教師あり音声生成学習を行います。提案されたフレームワークは、コンテキスト内学習能力や再利用可能な自己教師あり事前学習済みAudioMAEおよび潜在拡散モデルといった利点を自然にもたらします。テキストから音声への変換、テキストから音楽への変換、テキストから会話への変換という主要ベンチマークでの実験結果は、従来の手法に対して最先端または競合性のある性能を示しています。当研究のコード、事前学習済みモデル、デモはhttps://audioldm.github.io/audioldm2 で公開されています。

AudioLDM 2: 自教師学習による包括的な音声生成の学習 | 最新論文 | HyperAI超神経