HyperAIHyperAI

Command Palette

Search for a command to run...

インストラクション微調整済みLLMとラティント・ディフュージョンモデルを用いたテキストからオーディオ生成

Deepanway Ghosal Navonil Majumder Ambuj Mehrish Soujanya Poria

概要

近年の大規模言語モデル(LLM)の膨大なスケールにより、インストラクションベースやチェーン・オブ・シンキングに基づくファインチューニングといった興味深い特性が実現可能となり、多くの自然言語処理(NLP)タスクにおいてゼロショットおよび少数ショットの性能が著しく向上した。このような成功に触発され、本研究では、テキストから音声を生成するテキストtoオーディオ(TTA)生成タスクにおいて、インストラクションチューニング済みの大規模言語モデルFlan-T5をテキストエンコーダとして採用した。従来のTTA研究では、テキスト・オーディオの統合エンコーダを事前学習するか、T5のようなインストラクションチューニングされていないモデルを用いることが一般的であった。一方、本研究で提案する潜在拡散モデル(LDM)ベースのアプローチTANGOは、訓練データセットが従来の手法の約1/63という極めて小さな規模でありながら、テキストエンコーダを固定したままにした状態で、AudioCapsテストセットにおいて多数の指標で最先端のAudioLDMを上回り、残りの指標では同等の性能を示した。この性能向上は、訓練データセットの拡張において音圧レベルに基づく音声合成手法を採用したことに起因している可能性がある。これに対して、従来の手法ではランダムな混合が用いられてきた。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています