HyperAI

دروس تعليمية عبر الإنترنت | يدعم 19 لغة ويتم إنشاؤه أسرع بـ 15 مرة! نموذج توليد الموسيقى ACE-Step متاح الآن

特色图像

تواجه نماذج توليد الموسيقى الحالية مقايضة جوهرية بين سرعة التوليد والترابط الموسيقي والقدرة على التحكم. على سبيل المثال،تحقق النماذج المعتمدة على LLM (على سبيل المثال، Yue، SongGen) أداءً جيدًا في محاذاة كلمات الأغاني ولكنها تعاني من سرعة الاستدلال البطيئة والتحف البنيوية.من ناحية أخرى، فإن نماذج الانتشار (على سبيل المثال، DiffRhythm)، على الرغم من تمكينها من التوليف بشكل أسرع، إلا أنها غالبًا ما تفتقر إلى التماسك الهيكلي طويل المدى. ردًا على ذلك، أطلقت شركة الذكاء الاصطناعي StepFun ومنصة الموسيقى الرقمية ACE Studio بشكل مشترك نموذجًا أساسيًا لتوليد الموسيقى ACE-Step-v1-3.5B، والذي تم طرحه مفتوح المصدر في 7 مايو 2025.يمكن للنموذج تجميع ما يصل إلى 4 دقائق من الموسيقى في 20 ثانية فقط على وحدة معالجة الرسوميات NVIDIA A100، وهو أسرع بـ 15 مرة من طريقة الأساس المستندة إلى LLM.مع تحقيق تماسك موسيقي ممتاز وتوافق غنائي من حيث المقاييس اللحنية والتوافقية والإيقاعية.

بالمقارنة مع أدوات الموسيقى التقليدية للذكاء الاصطناعي، يتغلب ACE-Step على القيود الرئيسية للطرق الحالية ويحقق الأداء الأمثل من خلال التصميم المعماري الشامل.إنها تتمتع بمزايا بارزة في أربعة جوانب: الأنماط والأنواع المتنوعة، ودعم اللغات المتعددة، والتعبير الآلي والتعبير الصوتي.تدعم النسخة مفتوحة المصدر بالفعل الإدخال بـ 19 لغة وتحتفظ بالتفاصيل الصوتية الدقيقة. ويدعم آليات التحكم المتقدمة مثل استنساخ الصوت وتحرير الكلمات والمزج وتوليد المسار. بالإضافة إلى ذلك، فهو يدعم أيضًا جميع أنماط الموسيقى السائدة، وأنماط الغناء المتعددة، وتوليد الآلات الموسيقية عبر الأنواع. يمكنه استعادة خصائص جرس الآلات الموسيقية بدقة وإنشاء موسيقى متعددة المسارات مع ترتيبات معقدة.

بمساعدة ACE-Step-v1-3.5B، كل ما عليك فعله هو إدخال معلمات مثل نمط الموسيقى وكلمات الأغاني لتوليد مقطع موسيقي مدته 30 ثانية بسرعة. تعال وانقر للاستماع~

* إدخال العلامة: فانك، بوب، سول، روك، ميلودي، جيتار، طبول، باس، لوحة مفاتيح، إيقاع، 105 نبضة في الدقيقة، نشيط، متفائل، رائع، نابض بالحياة، ديناميكي

في الوقت الحالي،تم إطلاق "ACE-Step: النموذج الأساسي لتوليد الموسيقى" في قسم "البرنامج التعليمي" على الموقع الرسمي لشركة HyperAI.انقر على الرابط أدناه لتجربة البرنامج التعليمي للنشر بنقرة واحدة ⬇️

رابط البرنامج التعليمي:https://go.hyper.ai/tTmib

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لـ hyper.ai، حدد صفحة "البرنامج التعليمي"، وحدد "ACE-Step: النموذج الأساسي لتوليد الموسيقى"، وانقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت".

2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

3. حدد الصورتين "NVIDIA GeForce RTX 4090" و"PyTorch". توفر منصة OpenBayes أربع طرق للدفع. يمكنك اختيار "الدفع حسب الاستخدام" أو "يوميًا/أسبوعيًا/شهريًا" وفقًا لاحتياجاتك. انقر فوق "متابعة". يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت فراغ وحدة المعالجة المركزية!

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي دقيقتين. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق سهم الانتقال بجوار "عنوان API" للانتقال إلى صفحة العرض التوضيحي. نظرًا لأن النموذج كبير الحجم، يستغرق عرض واجهة WebUI حوالي 3 دقائق، وإلا فسيتم عرض "البوابة سيئة". يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.

عرض التأثير

يوفر المشروع لوحات إنشاء متعددة المهام: علامة التبويب Text2Music، علامة التبويب Retake، علامة التبويب Repainting، علامة التبويب Edit وعلامة التبويب Extend.

يتم تقديم وظائف وتعديلات المعلمات لكل وحدة بشكل موجز على النحو التالي:

علامة تبويب Text2Music

* مدة الصوت: اضبط مدة الصوت الناتج (-1 يعني إنشاء عشوائي)

* العلامات: أدخل العلامات الوصفية أو أنواع الموسيقى أو أوصاف المشهد، مفصولة بفواصل

* كلمات الأغاني: أدخل كلمات الأغاني مع علامات البنية، مثل [الآية]، [الكورس]، [الجسر]

* الإعدادات الأساسية: ضبط عدد خطوات الاستدلال ونسبة التوجيه وقيمة البذرة

* الإعدادات المتقدمة: ضبط نوع المجدول، ونوع CFG، وإعدادات ERG والمعلمات الأخرى

* انقر فوق الزر "إنشاء" لإنشاء موسيقى استنادًا إلى المحتوى المدخل

علامة التبويب إعادة الالتقاط

وظيفة:قم بتجديد الموسيقى بقيم بذور مختلفة وأنتج اختلافات طفيفة، واضبط معلمات الاختلاف للتحكم في مدى اختلاف الإصدار الجديد عن الإصدار الأصلي

* التباين: املأ التباين

* إعادة أخذ البذور (الافتراضي لا شيء): املأ بذرة الرقم العشوائي

* انقر فوق زر "إعادة الالتقاط" لإعادة التوليد

علامة تبويب إعادة الطلاء

وظيفة:تجديد مقاطع موسيقية محددة بشكل انتقائي

* التباين: التباين

* إعادة أخذ البذور (الافتراضي لا شيء): بذور عشوائية

* وقت بدء إعادة الطلاء: يحدد وقت بدء الفقرة التي سيتم إعادة إنشائها

* وقت انتهاء إعادة الطلاء: يحدد وقت انتهاء الفقرة التي سيتم إعادة إنشائها

* إعادة رسم المصدر: حدد مصدر الصوت (text2music أو last_repaint أو upload)

* انقر فوق زر "إعادة الطلاء" للتجديد

تحرير علامة التبويب

وظيفة:التحكم في درجة الحفاظ على الأغنية الأصلية عن طريق ضبط معلمات التحرير

* تحرير العلامات: تعديل العلامات للتكيف مع الموسيقى الموجودة

* تعديل الكلمات: تعديل الكلمات للتكيف مع الموسيقى الموجودة

* تحرير البذور (الافتراضي لا شيء): تحرير البذور العشوائية

* نوع التحرير: نوع التحرير، يمكنك اختيار وضع "only_lyrics" (الاحتفاظ باللحن الأصلي) أو وضع "remix" (تغيير اللحن)

* وقت انتهاء إعادة الطلاء: يحدد وقت انتهاء الفقرة التي سيتم إعادة إنشائها

*edit_n_min: تعديل الحد الأدنى للنطاق

* edit_n_max: أقصى نطاق للتحرير

* تعديل المصدر: تعديل المصدر

* انقر فوق الزر "تحرير" لتحرير

تمديد علامة التبويب

وظيفة:أضف قطعة موسيقية في بداية أو نهاية الموسيقى الموجودة

* تحرير البذور (الافتراضي لا شيء): نشر بذور عشوائية

* طول الامتداد الأيسر: يحدد طول الامتداد الأيسر

* طول الامتداد الأيمن: يحدد طول الامتداد الأيمن

* تمديد المصدر: حدد مصدر الصوت الذي يحتاج إلى التمديد

* انقر فوق الزر "تمديد" للتوسيع