التاريخ

منذ 8 أشهر

الحجم

1.47 GB

الوسوم

تصنيف الصوت

Text-to-Audio

الترخيص

MIT

GitHub

Stability-AI/stable-audio-tools

رابط الورقة البحثية

2505.08175

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي مورد A6000 ببطاقة واحدة. تدعم المطالبات المُولَّدة اللغة الإنجليزية فقط.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج

نصائح: قد تُصدر إعدادات المعلمات غير الصحيحة تشويشًا. عند استخدام متصفح سفاري، قد لا يتم تشغيل الصوت مباشرةً، ويجب تنزيله قبل التشغيل.

كيفية الاستخدام

وصف المعلمة:

إجمالي الثواني: المدة الإجمالية للصوت المُولّد.
خطوات: يُمثل عدد التكرارات أو الخطوات في عملية الاستدلال الخاصة بالنموذج عدد خطوات التحسين التي يتخذها النموذج لإنتاج النتيجة. يؤدي عدد أكبر من الخطوات عادةً إلى نتائج أكثر دقة، ولكنه قد يزيد من وقت الحساب.
مقياس CFG: يُستخدم للتحكم في تأثير المدخلات الشرطية على النتائج المُولَّدة في النموذج التوليدي. كلما ارتفعت القيمة، زادت توافقها مع وصف النص.

معلمات العينة

البذرة: يمكن للبذرة العشوائية، التي تظل ثابتة، أن تنتج نفس النتائج بشكل متكرر.
الحد الأدنى لفاصل CFG: قم بضبط الدليل الشرطي لنقطة بداية الوقت لعملية الانتشار.
الحد الأقصى لفاصل CFG: قم بتعيين الدليل الشرطي عند نقطة نهاية الوقت لعملية الانتشار.
مبلغ إعادة مقياس CFG: من خلال ضبط قوة الحالة بشكل ديناميكي، يتم منع الفائض العددي وتحسين استقرار التوليد تحت قوة الحالة العالية.

معلمات الإخراج

تنسيق الملف: حدد تنسيق ملف الإخراج.
تسمية الملف: حدد طريقة تسمية ملف الإخراج.
معاينة المواصفات كل: حدد ما إذا كنت تريد معاينة الرسم البياني الطيفي.
قطع إلى إجمالي الثواني: ما إذا كان سيتم التقليم إلى المدة المحددة.
التشغيل التلقائي: هل سيتم اللعب تلقائيا؟
راديو لانهائي: ما إذا كان سيتم التوليد في حلقة.
التنزيل التلقائي: هل سيتم التنزيل تلقائيًا؟

الصوت الأولي

الصوت الأولي: حدد ملف الصوت الأولي لتوليد صوت جديد.
مستوى الضوضاء الأولية: يقوم بتعيين مستوى الضوضاء، والذي يتحكم في العشوائية الأولية للصوت الناتج.

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook

التاريخ

منذ 8 أشهر

الحجم

1.47 GB

الوسوم

تصنيف الصوت

Text-to-Audio

الترخيص

MIT

GitHub

Stability-AI/stable-audio-tools

رابط الورقة البحثية

2505.08175

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي مورد A6000 ببطاقة واحدة. تدعم المطالبات المُولَّدة اللغة الإنجليزية فقط.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج

نصائح: قد تُصدر إعدادات المعلمات غير الصحيحة تشويشًا. عند استخدام متصفح سفاري، قد لا يتم تشغيل الصوت مباشرةً، ويجب تنزيله قبل التشغيل.

كيفية الاستخدام

وصف المعلمة:

إجمالي الثواني: المدة الإجمالية للصوت المُولّد.
خطوات: يُمثل عدد التكرارات أو الخطوات في عملية الاستدلال الخاصة بالنموذج عدد خطوات التحسين التي يتخذها النموذج لإنتاج النتيجة. يؤدي عدد أكبر من الخطوات عادةً إلى نتائج أكثر دقة، ولكنه قد يزيد من وقت الحساب.
مقياس CFG: يُستخدم للتحكم في تأثير المدخلات الشرطية على النتائج المُولَّدة في النموذج التوليدي. كلما ارتفعت القيمة، زادت توافقها مع وصف النص.

معلمات العينة

البذرة: يمكن للبذرة العشوائية، التي تظل ثابتة، أن تنتج نفس النتائج بشكل متكرر.
الحد الأدنى لفاصل CFG: قم بضبط الدليل الشرطي لنقطة بداية الوقت لعملية الانتشار.
الحد الأقصى لفاصل CFG: قم بتعيين الدليل الشرطي عند نقطة نهاية الوقت لعملية الانتشار.
مبلغ إعادة مقياس CFG: من خلال ضبط قوة الحالة بشكل ديناميكي، يتم منع الفائض العددي وتحسين استقرار التوليد تحت قوة الحالة العالية.

معلمات الإخراج

تنسيق الملف: حدد تنسيق ملف الإخراج.
تسمية الملف: حدد طريقة تسمية ملف الإخراج.
معاينة المواصفات كل: حدد ما إذا كنت تريد معاينة الرسم البياني الطيفي.
قطع إلى إجمالي الثواني: ما إذا كان سيتم التقليم إلى المدة المحددة.
التشغيل التلقائي: هل سيتم اللعب تلقائيا؟
راديو لانهائي: ما إذا كان سيتم التوليد في حلقة.
التنزيل التلقائي: هل سيتم التنزيل تلقائيًا؟

الصوت الأولي

الصوت الأولي: حدد ملف الصوت الأولي لتوليد صوت جديد.
مستوى الضوضاء الأولية: يقوم بتعيين مستوى الضوضاء، والذي يتحكم في العشوائية الأولية للصوت الناتج.

4. المناقشة

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

منذ 2 أشهر

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

منذ 2 أشهر

HunyuanWorld-1.0: نموذج توليد عالم ثلاثي الأبعاد

منذ 9 أيام

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

منذ 2 أشهر

توليد الصوت kyutai-tts-1.6 b-en_fr

منذ شهر واحد

DiffVox: نموذج التمييز الصوتي

منذ 3 أشهر

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

منذ 3 أشهر

فارا-7ب: نموذج وكيل ذكي عالي الكفاءة قائم على الويب

منذ 22 أيام

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

Stable-audio-open-small: عرض توضيحي لنموذج توليد الصوت

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

4. المناقشة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Stable-audio-open-small: عرض توضيحي لنموذج توليد الصوت

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

4. المناقشة

ذات صلة دفاتر تفاعلية

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

HunyuanWorld-1.0: نموذج توليد عالم ثلاثي الأبعاد

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

توليد الصوت kyutai-tts-1.6 b-en_fr

DiffVox: نموذج التمييز الصوتي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

فارا-7ب: نموذج وكيل ذكي عالي الكفاءة قائم على الويب

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Stable-audio-open-small: عرض توضيحي لنموذج توليد الصوت

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

4. المناقشة

ذات صلة دفاتر تفاعلية

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

HunyuanWorld-1.0: نموذج توليد عالم ثلاثي الأبعاد

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

توليد الصوت kyutai-tts-1.6 b-en_fr

DiffVox: نموذج التمييز الصوتي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

فارا-7ب: نموذج وكيل ذكي عالي الكفاءة قائم على الويب

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

HunyuanWorld-1.0: نموذج توليد عالم ثلاثي الأبعاد

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

توليد الصوت kyutai-tts-1.6 b-en_fr

DiffVox: نموذج التمييز الصوتي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

فارا-7ب: نموذج وكيل ذكي عالي الكفاءة قائم على الويب

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

ذات صلة دفاتر تفاعلية

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

HunyuanWorld-1.0: نموذج توليد عالم ثلاثي الأبعاد

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

توليد الصوت kyutai-tts-1.6 b-en_fr

DiffVox: نموذج التمييز الصوتي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

فارا-7ب: نموذج وكيل ذكي عالي الكفاءة قائم على الويب

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط