2ヶ月前
QA-MDT: 品質認識マスク付き拡散トランスフォーマーによる音楽生成の向上
Li, Chang ; Wang, Ruoyu ; Liu, Lijuan ; Du, Jun ; Sun, Yixuan ; Guo, Zilu ; Zhang, Zhenrong ; Jiang, Yuan ; Gao, Jianqing ; Ma, Feng

要約
テキストから音楽(TTM)の生成は、テキスト記述をオーディオに変換し、マルチメディア制作における革新的な道を開きます。このプロセスにおいて高品質と多様性を実現するには、広範で高品質なデータが必要ですが、利用可能なデータセットではしばしばそのようなデータが不足しています。オープンソースのデータセットは、低品質な波形や低いテキスト-オーディオの一貫性などの問題を抱えており、音楽生成モデルの進歩を妨げています。これらの課題に対処するために、大規模かつ品質が偏っているデータセットから高品質で音楽性の高い音楽を生成するための新しい品質重視の学習パラダイムを提案します。さらに、音楽信号の潜在空間に存在する独自の特性を利用することで、マスク付き拡散トランスフォーマー(MDT)モデルをTTMタスクに適応・実装し、その品質管理と音楽性向上の能力を示しています。また、低品質なキャプションの問題に対処するために三段階のキャプション改良手法も導入しました。実験結果は、MusicCapsやSong-Describer Datasetなどのベンチマークデータセットにおいて客観的および主観的な指標で最先端(SOTA)の性能を達成していることを示しています。デモ用オーディオサンプルは https://qa-mdt.github.io/ で提供されており、コードと事前学習済みチェックポイントは https://github.com/ivcylc/OpenMusic でオープンソース化されています。