التاريخ

منذ 6 أشهر

الحجم

410.43 MB

الوسوم

Text-to-Audio

الترخيص

Apache 2.0

GitHub

boson-ai/higgs-audio

رابط الورقة البحثية

2505.23009

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي بطاقة رسومات RTX 4090 واحدة. ويقدم ستة أمثلة للاختبار: استنساخ الصوت، والصوت الذكي، ووصف الصوت متعدد السماعات، ووصف صوت مكبر صوت واحد، وzh مكبر صوت واحد، وbgm مكبر صوت واحد. يدعم موجه النظام اللغة الإنجليزية فقط.

2. أمثلة المشاريع

استنساخ الصوت

صوت ذكي

وصف صوتي متعدد السماعات

وصف صوتي أحادي المتحدث

متحدث واحد-zh

موسيقى خلفية أحادية السماعة

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار لمدة دقيقتين أو ثلاث دقائق ثم تحديث الصفحة. عند استخدام متصفح سفاري، قد لا يتم تشغيل الصوت مباشرةً، ويجب تنزيله قبل التشغيل.

2.1 استنساخ الصوت

وصف المعلمة

المعلمات المتقدمة:
- أقصى عدد من رموز الإكمال: يحدّ من طول النص الصوتي المُولّد (بالرموز). كلما كبرت القيمة، زاد طول النص الصوتي المُولّد.
- درجة الحرارة: تتحكم في عشوائية المخرجات المُولَّدة. القيم المنخفضة (مثل 0.1) تجعل المخرجات أكثر حتمية وقابلية للتكرار؛ بينما تجعل القيم العالية (مثل 1.0) المخرجات أكثر تنوعًا وإبداعًا، ولكنها قد تكون غير متماسكة.
- أعلى قيمة P: تُحدِّد نطاق التصنيفات (الاحتمالات التراكمية) التي يأخذها النموذج في الاعتبار في كل خطوة. القيم المنخفضة (مثل 0.5) تجعل الناتج أكثر تركيزًا؛ بينما القيم العالية (مثل 0.95) تجعل الناتج أكثر تنوعًا.
- أعلى K: يُقيّد النموذج باختيار K من العلامات الأكثر احتمالاً فقط في كل خطوة. القيم المنخفضة تجعل المخرجات أكثر دقة؛ بينما القيم العالية (أو -1 لتعطيلها) تجعل المخرجات أكثر تنوعًا.
- طول نافذة RAS: يُفعّل ميزة تجنب التكرار ويُحدّد حجم نافذة النص للتحقق من التكرارات. اضبط القيمة على 0 لتعطيل هذه الميزة.
- الحد الأقصى لعدد مرات تكرار RAS: يُحدد، بالتزامن مع نافذة RAS، الحد الأقصى لعدد مرات تكرار المحتوى داخل النافذة. تُقلل القيمة المنخفضة التكرارات، بينما تسمح القيمة العالية بتكرارات أكثر طبيعية.

2.2 صوت ذكي

2.3 وصف صوتي متعدد السماعات

2.4 وصف صوتي لمتحدث واحد

2.5 مكبر صوت واحد-zh

2.6 مكبر صوت واحد - موسيقى خلفية

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@misc{higgsaudio2025,
  author       = {{Boson AI}},
  title        = {{Higgs Audio V2: Redefining Expressiveness in Audio Generation}},
  year         = {2025},
  howpublished = {\url{https://github.com/boson-ai/higgs-audio}},
  note         = {GitHub repository. Release blog available at \url{https://www.boson.ai/blog/higgs-audio-v2}},
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook

التاريخ

منذ 6 أشهر

الحجم

410.43 MB

الوسوم

Text-to-Audio

الترخيص

Apache 2.0

GitHub

boson-ai/higgs-audio

رابط الورقة البحثية

2505.23009

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي بطاقة رسومات RTX 4090 واحدة. ويقدم ستة أمثلة للاختبار: استنساخ الصوت، والصوت الذكي، ووصف الصوت متعدد السماعات، ووصف صوت مكبر صوت واحد، وzh مكبر صوت واحد، وbgm مكبر صوت واحد. يدعم موجه النظام اللغة الإنجليزية فقط.

2. أمثلة المشاريع

استنساخ الصوت

صوت ذكي

وصف صوتي متعدد السماعات

وصف صوتي أحادي المتحدث

متحدث واحد-zh

موسيقى خلفية أحادية السماعة

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار لمدة دقيقتين أو ثلاث دقائق ثم تحديث الصفحة. عند استخدام متصفح سفاري، قد لا يتم تشغيل الصوت مباشرةً، ويجب تنزيله قبل التشغيل.

2.1 استنساخ الصوت

وصف المعلمة

المعلمات المتقدمة:
- أقصى عدد من رموز الإكمال: يحدّ من طول النص الصوتي المُولّد (بالرموز). كلما كبرت القيمة، زاد طول النص الصوتي المُولّد.
- درجة الحرارة: تتحكم في عشوائية المخرجات المُولَّدة. القيم المنخفضة (مثل 0.1) تجعل المخرجات أكثر حتمية وقابلية للتكرار؛ بينما تجعل القيم العالية (مثل 1.0) المخرجات أكثر تنوعًا وإبداعًا، ولكنها قد تكون غير متماسكة.
- أعلى قيمة P: تُحدِّد نطاق التصنيفات (الاحتمالات التراكمية) التي يأخذها النموذج في الاعتبار في كل خطوة. القيم المنخفضة (مثل 0.5) تجعل الناتج أكثر تركيزًا؛ بينما القيم العالية (مثل 0.95) تجعل الناتج أكثر تنوعًا.
- أعلى K: يُقيّد النموذج باختيار K من العلامات الأكثر احتمالاً فقط في كل خطوة. القيم المنخفضة تجعل المخرجات أكثر دقة؛ بينما القيم العالية (أو -1 لتعطيلها) تجعل المخرجات أكثر تنوعًا.
- طول نافذة RAS: يُفعّل ميزة تجنب التكرار ويُحدّد حجم نافذة النص للتحقق من التكرارات. اضبط القيمة على 0 لتعطيل هذه الميزة.
- الحد الأقصى لعدد مرات تكرار RAS: يُحدد، بالتزامن مع نافذة RAS، الحد الأقصى لعدد مرات تكرار المحتوى داخل النافذة. تُقلل القيمة المنخفضة التكرارات، بينما تسمح القيمة العالية بتكرارات أكثر طبيعية.

2.2 صوت ذكي

2.3 وصف صوتي متعدد السماعات

2.4 وصف صوتي لمتحدث واحد

2.5 مكبر صوت واحد-zh

2.6 مكبر صوت واحد - موسيقى خلفية

4. المناقشة

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@misc{higgsaudio2025,
  author       = {{Boson AI}},
  title        = {{Higgs Audio V2: Redefining Expressiveness in Audio Generation}},
  year         = {2025},
  howpublished = {\url{https://github.com/boson-ai/higgs-audio}},
  note         = {GitHub repository. Release blog available at \url{https://www.boson.ai/blog/higgs-audio-v2}},
}

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

منذ 2 أشهر

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

منذ 2 أشهر

نشر DeepSeek-R1-70B بنقرة واحدة

منذ 3 أشهر

DiffVox: نموذج التمييز الصوتي

منذ 3 أشهر

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

منذ 2 أشهر

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

منذ 2 أشهر

جارفيس آرت - معاينة برنامج تنقيح الصور الذكي

منذ شهر واحد

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

منذ 2 أشهر

تينسنت هونيوان فيديو-فولي

منذ شهر واحد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

Higgs Audio V2: إعادة تعريف قدرة توليد الكلام على التعبير

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

استنساخ الصوت

صوت ذكي

وصف صوتي متعدد السماعات

وصف صوتي أحادي المتحدث

متحدث واحد-zh

موسيقى خلفية أحادية السماعة

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

2.1 استنساخ الصوت

2.2 صوت ذكي

2.3 وصف صوتي متعدد السماعات

2.4 وصف صوتي لمتحدث واحد

2.5 مكبر صوت واحد-zh

2.6 مكبر صوت واحد - موسيقى خلفية

4. المناقشة

معلومات الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Higgs Audio V2: إعادة تعريف قدرة توليد الكلام على التعبير

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

استنساخ الصوت

صوت ذكي

وصف صوتي متعدد السماعات

وصف صوتي أحادي المتحدث

متحدث واحد-zh

موسيقى خلفية أحادية السماعة

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

2.1 استنساخ الصوت

2.2 صوت ذكي

2.3 وصف صوتي متعدد السماعات

2.4 وصف صوتي لمتحدث واحد

2.5 مكبر صوت واحد-zh

2.6 مكبر صوت واحد - موسيقى خلفية

4. المناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

نشر DeepSeek-R1-70B بنقرة واحدة

DiffVox: نموذج التمييز الصوتي

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

جارفيس آرت - معاينة برنامج تنقيح الصور الذكي

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

تينسنت هونيوان فيديو-فولي

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Higgs Audio V2: إعادة تعريف قدرة توليد الكلام على التعبير

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

استنساخ الصوت

صوت ذكي

وصف صوتي متعدد السماعات

وصف صوتي أحادي المتحدث

متحدث واحد-zh

موسيقى خلفية أحادية السماعة

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

2.1 استنساخ الصوت

2.2 صوت ذكي

2.3 وصف صوتي متعدد السماعات

2.4 وصف صوتي لمتحدث واحد

2.5 مكبر صوت واحد-zh

2.6 مكبر صوت واحد - موسيقى خلفية

4. المناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي