HyperAI
منذ 18 أيام

سونيكفرس: التعلم متعدد المهام لكتابة العناوين المستندة إلى خصائص الموسيقى

Chopra, Anuradha ; Roy, Abhinaba ; Herremans, Dorien
سونيكفرس: التعلم متعدد المهام لكتابة العناوين المستندة إلى خصائص الموسيقى
الملخص

العناوين التفصيلية التي تعكس بدقة خصائص قطعة موسيقية يمكن أن تغني قواعد بيانات الموسيقى وتدفع البحث في الذكاء الاصطناعي للموسيقى إلى الأمام. يقدم هذا البحث نموذجًا متعدد المهام للعناوين الموسيقية، يُعرف بـ SonicVerse، والذي يدمج إنشاء العناوين مع مهام فرعية للكشف عن خصائص الموسيقى مثل الكشف عن المفتاح (key detection) والكشف عن الأصوات البشرية (vocals detection) وغيرها، وذلك بهدف التقاط التفاصيل الصوتية من المستوى المنخفض وكذلك الصفات الموسيقية من المستوى العالي بشكل مباشر. الإسهام الرئيسي هو هندسة قائمة على الإسقاط (projection-based architecture) تقوم بتحويل المدخلات الصوتية إلى رموز لغوية (language tokens)، بينما تقوم بكشف خصائص الموسيقى عبر رؤوس فرعية مخصصة (dedicated auxiliary heads). يتم أيضًا إسقاط مخرجات هذه الرؤوس إلى رموز لغوية لتعزيز مدخلات العناوين. لا يقتصر هذا الإطار على إنتاج عناوين غنية ووصفية لأجزاء قصيرة من الموسيقى فحسب، بل يمكّن أيضًا من إنشاء وصف تفصيلي مدروس بالوقت للأعمال الموسيقية الطويلة، من خلال سلسلة المخرجات باستخدام نموذج لغوي كبير. لتدريب النموذج، قمنا بتوسيع مجموعة بيانات MusicBench بإضافة خصائص موسيقية إليها باستخدام MIRFLEX، وهو مستخلص خصائص موسيقية قابل للتوسع، مما أدى إلى وجود بيانات مقترنة تتكون من الصوت والعناوين وخواص الموسيقى. تظهر النتائج التجريبية أن دمج الخواص بهذه الطريقة يحسن جودة وتفصيل العناوين المولدة.