HyperAI

Stable-audio-open-small: عرض توضيحي لنموذج توليد الصوت

1. مقدمة البرنامج التعليمي

يبني

Stable-audio-open-small هو نموذج ذكاء اصطناعي لتوليد الصوت، أطلقته Stability AI وArm في 13 مايو 2025. يركز هذا النموذج على إنشاء محتوى صوتي قصير عالي الجودة بكفاءة. يعتمد هذا النموذج على تقنية نموذج الانتشار المتقدمة، ويمكّن المستخدمين من توليد مقاطع موسيقية ومؤثرات صوتية وأصوات محيطة وأنواع صوتية أخرى (مثل حلقات الطبول ومقاطع الألحان أو المشاهد الصوتية الطبيعية) بسرعة من خلال توجيهات نصية، وهو مناسب لإنتاج الموسيقى وتطوير الألعاب والموسيقى التصويرية للأفلام والتلفزيون وغيرها من السيناريوهات. نتائج البحث ذات الصلة هي:توليد نص سريع إلى صوت باستخدام التدريب اللاحق التنافسي".

يستخدم هذا البرنامج التعليمي مورد A6000 ببطاقة واحدة. تدعم المطالبات المُولَّدة اللغة الإنجليزية فقط.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج

نصائح: قد تُصدر إعدادات المعلمات غير الصحيحة تشويشًا. عند استخدام متصفح سفاري، قد لا يتم تشغيل الصوت مباشرةً، ويجب تنزيله قبل التشغيل.

كيفية الاستخدام

وصف المعلمة:

  • إجمالي الثواني: المدة الإجمالية للصوت المُولّد.
  • خطوات: يُمثل عدد التكرارات أو الخطوات في عملية الاستدلال الخاصة بالنموذج عدد خطوات التحسين التي يتخذها النموذج لإنتاج النتيجة. يؤدي عدد أكبر من الخطوات عادةً إلى نتائج أكثر دقة، ولكنه قد يزيد من وقت الحساب.
  • مقياس CFG: يُستخدم للتحكم في تأثير المدخلات الشرطية على النتائج المُولَّدة في النموذج التوليدي. كلما ارتفعت القيمة، زادت توافقها مع وصف النص.

معلمات العينة

  • البذرة: يمكن للبذرة العشوائية، التي تظل ثابتة، أن تنتج نفس النتائج بشكل متكرر.
  • الحد الأدنى لفاصل CFG: قم بضبط الدليل الشرطي لنقطة بداية الوقت لعملية الانتشار.
  • الحد الأقصى لفاصل CFG: قم بتعيين الدليل الشرطي عند نقطة نهاية الوقت لعملية الانتشار.
  • مبلغ إعادة مقياس CFG: من خلال ضبط قوة الحالة بشكل ديناميكي، يتم منع الفائض العددي وتحسين استقرار التوليد تحت قوة الحالة العالية.

معلمات الإخراج

  • تنسيق الملف: حدد تنسيق ملف الإخراج.
  • تسمية الملف: حدد طريقة تسمية ملف الإخراج.
  • معاينة المواصفات كل: حدد ما إذا كنت تريد معاينة الرسم البياني الطيفي.
  • قطع إلى إجمالي الثواني: ما إذا كان سيتم التقليم إلى المدة المحددة.
  • التشغيل التلقائي: هل سيتم اللعب تلقائيا؟
  • راديو لانهائي: ما إذا كان سيتم التوليد في حلقة.
  • التنزيل التلقائي: هل سيتم التنزيل تلقائيًا؟

الصوت الأولي

  • الصوت الأولي: حدد ملف الصوت الأولي لتوليد صوت جديد.
  • مستوى الضوضاء الأولية: يقوم بتعيين مستوى الضوضاء، والذي يتحكم في العشوائية الأولية للصوت الناتج.

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓