8ヶ月前

マルチモーダル表現

オーディオ

マルチモーダル

Jade Copet Felix Kreuk Itai Gat Tal Remez David Kant Gabriel Synnaeve Yossi Adi Alexandre Défossez

概要

私たちは条件付き音楽生成の課題に取り組んでいます。本研究では、複数の圧縮された離散音楽表現、つまりトークンを処理する単一の言語モデル（LM）であるMusicGenを導入します。従来の手法とは異なり、MusicGenは単段階のトランスフォーマー言語モデルと効率的なトークンインターリーブパターンで構成されており、階層的にまたはアップサンプリングのように複数のモデルを連携させる必要がありません。このアプローチに基づき、MusicGenがテキスト記述や旋律特徴に基づいて高品質なモノラルおよびステレオサンプルを生成できることを示します。これにより、生成された出力に対するより良い制御が可能になります。私たちは広範な実証評価を行い、自動評価と人間による評価の両方を取り入れて、提案した手法が標準的なテキストから音楽への変換ベンチマークにおいて評価基準よりも優れていることを示しています。さらに、消去法による評価を通じて、MusicGenを構成する各コンポーネントの重要性について考察しています。MusicGenによって生成された音楽サンプル、コード、およびモデルは、https://github.com/facebookresearch/audiocraft で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル表現

オーディオ

マルチモーダル

Jade Copet Felix Kreuk Itai Gat Tal Remez David Kant Gabriel Synnaeve Yossi Adi Alexandre Défossez

概要

私たちは条件付き音楽生成の課題に取り組んでいます。本研究では、複数の圧縮された離散音楽表現、つまりトークンを処理する単一の言語モデル（LM）であるMusicGenを導入します。従来の手法とは異なり、MusicGenは単段階のトランスフォーマー言語モデルと効率的なトークンインターリーブパターンで構成されており、階層的にまたはアップサンプリングのように複数のモデルを連携させる必要がありません。このアプローチに基づき、MusicGenがテキスト記述や旋律特徴に基づいて高品質なモノラルおよびステレオサンプルを生成できることを示します。これにより、生成された出力に対するより良い制御が可能になります。私たちは広範な実証評価を行い、自動評価と人間による評価の両方を取り入れて、提案した手法が標準的なテキストから音楽への変換ベンチマークにおいて評価基準よりも優れていることを示しています。さらに、消去法による評価を通じて、MusicGenを構成する各コンポーネントの重要性について考察しています。MusicGenによって生成された音楽サンプル、コード、およびモデルは、https://github.com/facebookresearch/audiocraft で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

単純かつ制御可能な音楽生成 | 記事 | HyperAI超神経