Command Palette
Search for a command to run...
自己回帰モデルとフローマッチング:テキストから音楽への生成モデリングの比較研究
自己回帰モデルとフローマッチング:テキストから音楽への生成モデリングの比較研究
Tal Or Kreuk Felix Adi Yossi
概要
最近のテキストから音楽への生成技術の進歩により、モデルが高品質な音楽断片、完全な作品、さらには細かい制御信号(例えばコード進行)に応答することが可能になりました。最先端(State-of-the-Art, SOTA)システムは、学習データセット、モデリングパラダイム、アーキテクチャ選択などの多くの次元で大きく異なります。この多様性は、モデルを公正に評価し、どの設計選択が性能に最も影響を与えるかを特定する努力を複雑にしています。データやアーキテクチャなどの要因が重要であることは認めますが、本研究ではモデリングパラダイムに焦点を当てています。私たちはその効果を分離するために系統的な実証分析を行い、関連するトレードオフと新規現象についての洞察を提供し、将来のテキストから音楽への生成システムの開発を導くことを目指しています。具体的には、おそらく最も一般的な2つのモデリングパラダイムであるAuto-RegressiveデコーディングとConditional Flow-Matchingを比較します。私たちは同一のデータセット、学習設定、類似したバックボーンアーキテクチャを使用してすべてのモデルを一から学習させることで制御された比較を行います。性能は生成品質、推論設定に対する堅牢性、スケーラビリティ、テキストおよび時間的に整合性のある条件付けへの適合度、そしてオーディオインペイント形式での編集機能など複数の軸で評価されます。この比較研究は各パラダイムの独自の強みと限界を明らかにし、テキストから音楽への生成技術が進化する中で今後のアーキテクチャ設計と学習決定に役立つ具体的な洞察を提供します。サンプル音源は以下のURLで利用可能です: https://huggingface.co/spaces/ortal1602/ARvsFM