موسيقى فهم لاما: تطوير إنشاء النص إلى الموسيقى من خلال الإجابة على الأسئلة والوصف

تواجه تقنية توليد الموسيقى من النص (T2M-Gen) تحديًا رئيسيًا بسبب نقص المجموعات الضخمة من البيانات الموسيقية المتاحة للجمهور والتي تحتوي على عناوين بلغة طبيعية. لمعالجة هذا التحدي، نقترح نموذج فهم الموسيقى LLaMA (MU-LLaMA)، الذي يتميز بقدرته على الإجابة على الأسئلة المتعلقة بالموسيقى وتوليد العناوين لملفات الصوت. يستخدم نموذجنا تمثيلات صوتية من نموذج MERT المدرب مسبقًا لاستخراج خصائص الموسيقى. ومع ذلك، لا يزال الحصول على مجموعة بيانات مناسبة لتدريب نموذج MU-LLaMA أمرًا صعبًا، حيث تعاني المجموعات الحالية المتاحة للجمهور من قلة العمق اللازم للإجابة على الأسئلة الموسيقية المفتوحة. لسد هذه الفجوة، نقدم منهجية لتوليد أزواج السؤال والإجابة من المجموعات الحالية للبيانات المرتبطة بالعناوين الصوتية ونقدم مجموعة بيانات MusicQA المصممة للإجابة على الأسئلة الموسيقية المفتوحة. تظهر التجارب أن النموذج المقترح MU-LLaMA، الذي تم تدريبه على مجموعة بيانات MusicQA المصممة لدينا، حقق أداءً متميزًا في كلٍّ من الإجابة على الأسئلة الموسيقية وتوليد العناوين للموسيقى عبر مختلف المؤشرات، مما يجعله يتفوق على النماذج الرائدة حاليًا (SOTA) في كلا المجالين ويقدم تقدمًا واعدًا في مجال بحوث T2M-Gen.