HyperAIHyperAI
منذ 2 أشهر

الموسيقى البسيطة والقابلة للتحكم

Copet, Jade ; Kreuk, Felix ; Gat, Itai ; Remez, Tal ; Kant, David ; Synnaeve, Gabriel ; Adi, Yossi ; Défossez, Alexandre
الموسيقى البسيطة والقابلة للتحكم
الملخص

نواجه مهمة توليد الموسيقى المشروطة. نقدم MusicGen، وهو نموذج لغوي (LM) موحد يعمل على عدة تيارات من التمثيل الموسيقي المضغوط والمجزأ، أي الرموز. على عكس الأعمال السابقة، يتكون MusicGen من نموذج تحويلي لغوي ذو مرحلة واحدة مع أنماط تداخل رموز فعالة، مما يلغي الحاجة إلى سلسلة عدة نماذج، مثل تلك التي تعمل بشكل هرمي أو زيادة الحجم. وفقًا لهذا النهج، نوضح كيف يمكن لـ MusicGen إنتاج عينات عالية الجودة، سواء كانت أحادية القناة أو ثنائية القناة، بينما يتم شرطها على الوصف النصي أو الخصائص اللحنية، مما يسمح بتحكم أفضل في الإخراج المُنتج. نقوم بتقييم تجريبي شامل، مع الأخذ في الاعتبار كلًا من الدراسات الآلية والبشرية، مما يظهر أن النهج المقترح أفضل من الأساليب الأساسية المُقيمة في معيار النص إلى موسيقى القياسي. من خلال دراسات الاستبعاد (ablation studies)، نسلط الضوء على أهمية كل مكون من المكونات التي تتكون منها MusicGen. يمكن الوصول إلى عينات الموسيقى والكود والنماذج عبر الرابط: https://github.com/facebookresearch/audiocraft

الموسيقى البسيطة والقابلة للتحكم | أحدث الأوراق البحثية | HyperAI