HyperAIHyperAI

Command Palette

Search for a command to run...

موسيقى فهم لاما: تطوير إنشاء النص إلى الموسيقى من خلال الإجابة على الأسئلة والوصف

Shansong Liu Atin Sakkeer Hussain Chenshuo Sun Ying Shan

الملخص

تواجه تقنية توليد الموسيقى من النص (T2M-Gen) تحديًا رئيسيًا بسبب نقص المجموعات الضخمة من البيانات الموسيقية المتاحة للجمهور والتي تحتوي على عناوين بلغة طبيعية. لمعالجة هذا التحدي، نقترح نموذج فهم الموسيقى LLaMA (MU-LLaMA)، الذي يتميز بقدرته على الإجابة على الأسئلة المتعلقة بالموسيقى وتوليد العناوين لملفات الصوت. يستخدم نموذجنا تمثيلات صوتية من نموذج MERT المدرب مسبقًا لاستخراج خصائص الموسيقى. ومع ذلك، لا يزال الحصول على مجموعة بيانات مناسبة لتدريب نموذج MU-LLaMA أمرًا صعبًا، حيث تعاني المجموعات الحالية المتاحة للجمهور من قلة العمق اللازم للإجابة على الأسئلة الموسيقية المفتوحة. لسد هذه الفجوة، نقدم منهجية لتوليد أزواج السؤال والإجابة من المجموعات الحالية للبيانات المرتبطة بالعناوين الصوتية ونقدم مجموعة بيانات MusicQA المصممة للإجابة على الأسئلة الموسيقية المفتوحة. تظهر التجارب أن النموذج المقترح MU-LLaMA، الذي تم تدريبه على مجموعة بيانات MusicQA المصممة لدينا، حقق أداءً متميزًا في كلٍّ من الإجابة على الأسئلة الموسيقية وتوليد العناوين للموسيقى عبر مختلف المؤشرات، مما يجعله يتفوق على النماذج الرائدة حاليًا (SOTA) في كلا المجالين ويقدم تقدمًا واعدًا في مجال بحوث T2M-Gen.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp