HyperAIHyperAI

Command Palette

Search for a command to run...

QA-MDT: 品質認識マスク付き拡散トランスフォーマーによる音楽生成の向上

Chang Li* Ruoyu Wang* Lijuan Liu Jun Du† Yixuan Sun Zilu Guo Zhengrong Zhang Yuan Jiang Jianqing Gao Feng Ma

概要

テキストから音楽(TTM)の生成は、テキスト記述をオーディオに変換し、マルチメディア制作における革新的な道を開きます。このプロセスにおいて高品質と多様性を実現するには、広範で高品質なデータが必要ですが、利用可能なデータセットではしばしばそのようなデータが不足しています。オープンソースのデータセットは、低品質な波形や低いテキスト-オーディオの一貫性などの問題を抱えており、音楽生成モデルの進歩を妨げています。これらの課題に対処するために、大規模かつ品質が偏っているデータセットから高品質で音楽性の高い音楽を生成するための新しい品質重視の学習パラダイムを提案します。さらに、音楽信号の潜在空間に存在する独自の特性を利用することで、マスク付き拡散トランスフォーマー(MDT)モデルをTTMタスクに適応・実装し、その品質管理と音楽性向上の能力を示しています。また、低品質なキャプションの問題に対処するために三段階のキャプション改良手法も導入しました。実験結果は、MusicCapsやSong-Describer Datasetなどのベンチマークデータセットにおいて客観的および主観的な指標で最先端(SOTA)の性能を達成していることを示しています。デモ用オーディオサンプルは https://qa-mdt.github.io/ で提供されており、コードと事前学習済みチェックポイントは https://github.com/ivcylc/OpenMusic でオープンソース化されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています