"ماغنتا تطلق نموذج Magenta RealTime لتكوين الموسيقى الزمني الفعلي بتحكم ديناميكي"
ملخص بحث فريق جوجل ماجنتا: إطلاق نموذج ماجنتا ريلتايم لتأليف الموسيقى في الوقت الفعلي الخلفية: تأليف الموسيقى في الوقت الفعلي التحكم الفوري والتفاعل الحي هما أساس الإبداع الموسيقي. بينما ركزت المشاريع السابقة لفريق ماجنتا، مثل "Piano Genie" و"DDSP"، على التحكم التعبيري ونمذجة الإشارات، فإن ماجنتا ريلتايم (Magenta RT) تمتد لتحقيق توليد صوت شامل مع تفاعل مباشر من المستخدم. هذا النموذج يغلق الفجوة بين النماذج التوليدية والتأليف الموسيقي الذي يتم فيه تدخل الإنسان، مما يسمح بإعطاء ردود فعل فورية وتقدم موسيقي ديناميكي. التقديم أطلق فريق البحث التابع لشركة جوجل "ماجنتا" نموذج "ماجنتا ريلتايم" (Magenta RT)، وهو أول نموذج كبير للتأليف الموسيقي في الوقت الفعلي يدعم التوليد الفوري مع تحكم ديناميكي من قبل المستخدم. يتوفر النموذج تحت رخصة Apache 2.0 ويمكن الوصول إليه على GitHub وHugging Face. يعتمد هذا النموذج على تقنيات النمذجة المستخدمة في MusicLM وMusicFX، ولكنه يختلف في أنه يدعم التوليد البثي مع معامل وقت حقيقي أمامي (RTF) أكبر من 1، مما يعني أنه يمكنه توليد الصوت أسرع من الوقت الفعلي حتى على وحدات معالجة تنسور (TPUs) المجانية في Google Colab. التفاصيل التقنية يستخدم ماجنتا ريلتايم نموذج لغة مبني علىTransformer ومدرب على مجموعات صوتية متقطعة. يتم إنتاج هذه المجموعات الصوتية عبر كوديك صوتي عصبي يعمل بدقة 48 كيلوهرتز في الصوت الاستريو. يستفيد النموذج من عمارة Transformer ذات 800 مليون معلمة، والتي تم تحسينها لتحقيق: التحكم ديناميكيًا: يشمل التحكم في النوع الموسيقي، الآلات الموسيقية، والتطورات الأسلوبية في الوقت الفعلي. التكامل مع MusicLM: يتم دمج وحدة التضمين المشتركة للموسيقى والنص المعروفة باسم MusicCoCa، وهي مزيج من MuLan وCoCa، مما يسمح بالتحكم المعنى في النوع، الآلات، والتطورات الأسلوبية. البيانات والتدريب: تم تدريب ماجنتا ريلتايم على حوالي 190,000 ساعة من الموسيقى الأدواتية المصورة للأسهم. يضمن هذا المجموعة الكبيرة والمتنوعة من البيانات تعميم واسع وأنساق سلسة في السياقات الموسيقية المختلفة. تم تجزئة البيانات باستخدام كوديك هرمي، مما يتيح تمثيلات مضغوطة دون فقدان الدقة. يتم توليد كل جزء مدة 2 ثانية بناءً على دفعة مستخدمة وسياق متدحرج لمدة 10 ثوانٍ من الصوت السابق، مما يضمن تقدمًا سلسًا ومتناسقًا. الأداء والاستدلال رغم حجم النموذج (800 مليون معلمة)، فإنه يحقق سرعة توليد تبلغ 1.25 ثانية لكل 2 ثانية من الصوت، وهو ما يكفي للاستخدام الفوري (RTF ~0.625). يمكن تنفيذ الاستدلال على وحدات TPUs المجانية في Google Colab. يتم تقسيم عملية التوليد إلى أجزاء لضمان تدفق مستمر: يتم توليد كل جزء مدة 2 ثانية في خط أنابيب أمامي، مع تداخل في النوافذ لضمان الاستمرارية والتناسق. يتم الحد من التأخير عبر تحسينات في تجميع النموذج (XLA)، الذاكرة المؤقتة، وجدولة الأجهزة. التطبيقات والاستخدامات صمم ماجنتا ريلتايم للدمج في: تطبيقات التأليف الموسيقي: يسمح للمؤلفين الموسيقيين بإنشاء موسيقى تفاعلية في الوقت الفعلي. أنظمة DJ: يوفر إمكانية تغيير النوع الموسيقي والدمج الديناميكي للأدوات الموسيقية خلال الحفلات الحية. الألعاب والتطبيقات التفاعلية: يمكن استخدامه لإنشاء موسيقى متكيفة مع أحداث اللعبة أو التطبيق. العروض الحية والموسيقى التصويرية: يساعد في إنتاج موسيقى تصويرية تفاعلية تتوافق مع المشاهد المقدمة في الوقت الفعلي. تلمح جوجل أيضًا إلى دعم مستقبلي للاستدلال على الجهاز والتدريب الدقيق الشخصي، مما سيسمح للمبدعين بتكييف النموذج مع توقيعاتهم الأسلوبية الفريدة. المقارنة مع النماذج الأخرى يتميز ماجنتا ريلتايم بانخفاض الوقت الميت مقارنة بالنماذج مثل MusicGen وMusicLM، حيث يتيح التوليد التفاعلي الذي غالبًا ما يفتقر إليه المسارات الحالية التي تتطلب توليد المسار الكامل مسبقًا. كما أنه يختلف بشكل كبير عن نماذج التوزيع الكامنة (مثل Riffusion) والنماذج التحديدية الذاتية (مثل Jukebox) من خلال التركيز على التوقع بواسطة مجموعات الكوديك بتأخير أقل. الخاتمة ماجنتا ريلتايم يضع معايير جديدة في مجال التأليف الموسيقي التوليدي في الوقت الفعلي. من خلال دمج التوليد ذو الدقة العالية مع التحكم الديناميكي من قبل المستخدم، يفتح آفاقًا جديدة للمساعدة الذكية في إنشاء الموسيقى. يجمع تصميمه بين الحجم والسرعة، بينما تضمن رخصته المفتوحة الوصول والمساهمة من قبل المجتمع. يعتبر هذا النموذج خطوة أساسية نحو أنظمة موسيقى AI تفاعلية وتعاونية للمتخصصين، المطورين، والموسيقيين على حد سواء. تقييم الخبراء يؤكد الخبراء في مجال الذكاء الاصطناعي الموسيقي أن ماجنتا ريلتايم يمثل تقدمًا كبيرًا في تقنيات التأليف الموسيقي التفاعلية. يرى البعض أنه سيغير الطريقة التي يتعامل بها الموسيقيون مع التكنولوجيا، مما يجعلها أداة لا غنى عنها في الاستوديوهات والحفلات الحية. نبذة عن ماجنتا فريق ماجنتا هو مجموعة بحثية تابعة لجوجل متخصصة في استكشاف تقنيات الذكاء الاصطناعي للفن والإبداع. منذ تأسيسه، قدم الفريق العديد من المشاريع الرائدة في مجال الموسيقى والفنون الرقمية، بما في ذلك Piano Genie وDDSP. يسعى الفريق دائمًا إلى تحقيق تقدم في التفاعل المباشر وإنشاء أدوات تساعد المبدعين في التعبير عن أفكارهم بطرق جديدة ومبتكرة.