Command Palette
Search for a command to run...
النماذج التلقائية الانحدارية مقابل النماذج المطابقة للتدفق: دراسة مقارنة لتقنيات توليد الموسيقى من النص
النماذج التلقائية الانحدارية مقابل النماذج المطابقة للتدفق: دراسة مقارنة لتقنيات توليد الموسيقى من النص
Tal Or Kreuk Felix Adi Yossi
الملخص
التطورات الحديثة في توليد الموسيقى من النص قد مكنت النماذج من تركيب مقاطع موسيقية ذات جودة عالية، وتأليفات كاملة، وحتى الاستجابة للإشارات التحكم الدقيقة مثل تقدم الأوتار (chord progressions). تختلف أنظمة الطليعة (State-of-the-art) بشكل كبير في العديد من الأبعاد، مثل مجموعات البيانات المستخدمة في التدريب، ونماذج التحليل، واختيارات البنية. يعقد هذا التنوع الجهود الرامية لتقييم النماذج بطريقة عادلة والتحديد الدقيق لأي الخيارات التصميمية تؤثر أكثر على الأداء. بينما تكون عوامل مثل البيانات والبنية مهمة، فإن هذه الدراسة تركز بشكل حاسم على نموذج التحليل. نقوم بإجراء تحليل تجريبي منهجي لعزل آثاره، مما يقدم رؤى حول المبادلات المرتبطة والسلوكيات الناشئة التي يمكن أن توجه أنظمة توليد الموسيقى من النص في المستقبل. وبشكل خاص، نقارن بين أبرز نمطي التحليل الأكثر شيوعًا: فك التشفير الذاتي المتراكم (Auto-Regressive decoding) ومطابقة التدفق الشرطية (Conditional Flow-Matching). نقوم بإجراء مقارنة محكومة عبر تدريب جميع النماذج من الصفر باستخدام مجموعات بيانات متطابقة، وتكوينات تدريب متشابهة، وبني أساسية مشابهة. يتم تقييم الأداء عبر عدة محاور، بما في ذلك جودة التوليد، والمتانة أمام اعداديات الاستدلال المختلفة، وقابلية التوسع، والتزام كل من الشروط النصية والتوافق الزمني معها، وقدرات التعديل على شكل إعادة الرسم الصوتي (audio inpainting). يلقي هذا البحث المقارن الضوء على القوى المميزة والمحدوديات لكل نموذج للتحليل، مما يوفر رؤى عملية يمكن أن تعين في اتخاذ قرارات هندسية وتدريبية مستقبلية في مجال توليد الموسيقى من النص المتغير باستمرار. يمكن الوصول إلى أمثلة صوتية تم أخذها عشوائيًا من: https://huggingface.co/spaces/ortal1602/ARvsFM