Command Palette
Search for a command to run...
WildScore: تقييم نماذج التعلم الآلي متعددة الطبقات في استدلال الموسيقى الرمزية في البيئة الطبيعية
Gagan Mundada Yash Vishe Amit Namburi Xin Xu Zachary Novack Julian McAuley Junda Wu

الملخص
أظهرت التطورات الحديثة في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) قدرات ملحوظة في مجموعة متنوعة من المهام المرتبطة بالرؤية واللغة. ومع ذلك، ما زالت قدرات التفكير في مجال الموسيقى الرمزية متعددة الوسائط غير مُستكشفة بشكل واسع. نقدّم "WildScore"، أول معيار لتحليل وتقييم التفكير الموسيقي الرمزي متعدد الوسائط في البيئة الواقعية، المصمم لتقييم قدرة نماذج اللغة الكبيرة متعددة الوسائط على فهم المخطوطات الموسيقية الحقيقية والإجابة على أسئلة موسيقية معقدة. تم جمع كل مثال في "WildScore" من مقطوعات موسيقية حقيقية، ومرفق بأسئلة ونقاشات مُنشأة من قبل المستخدمين، مما يعكس تعقيدات التحليل الموسيقي العملي. ولتمكين التقييم المنظّم، نقترح تصنيفًا منهجيًا يتضمّن كلاً من الهياكل المفاهيمية الموسيقية عالية المستوى والتفصيلية. علاوةً على ذلك، نُصِف التفكير الموسيقي المعقد كمهمة إجابة على أسئلة متعددة الخيارات، مما يتيح تقييمًا مُتحكمًا وقابلًا للتوسع لفهم نماذج اللغة الكبيرة متعددة الوسائط للموسيقى الرمزية. أظهرت نتائج التقييم التجريبي لنماذج MLLMs الرائدة على معيار "WildScore" أنماطًا مثيرة للاهتمام في قدرتها على التفكير البصري-الرمزي، مُكشفةً عن اتجاهات واعدة وتحديات مستمرة تواجه نماذج MLLMs في مجال تحليل وفهم الموسيقى الرمزية. ونُطلق مع البيانات والمصدر (dataset and code).
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.