التاريخ

منذ 3 أشهر

الحجم

252.06 MB

الوسوم

التعرف على الصوت

الترخيص

MIT

GitHub

SonyResearch/diffvox

رابط الورقة البحثية

2504.14735

1. مقدمة البرنامج التعليمي

أُطلق مشروع DiffVox في مايو 2025 بشكل مشترك من قِبل فريق بحثي من سوني للذكاء الاصطناعي، وشركة سوني، وجامعة كوين ماري بلندن. تكمن القدرة الأساسية لهذا النموذج في أسلوبه المتقدم لتحسين وقت الاستدلال، وإدخاله المبتكر لقيود التوزيع الغاوسي المسبقة. يُمكّنه ذلك من تحويل تسجيل صوتي بشري خام بذكاء إلى صوت عالي الجودة يُقارب الصوت المرجعي المستهدف بشكل مسموع، ويتوافق مع معايير المزج الاحترافية من حيث المعايير. إنه نموذج متقدم يركز على نقل أسلوب الصوت البشري، وتشمل الأبحاث ذات الصلة ما يلي... DiffVox: نموذج قابل للتفاضل لالتقاط وتحليل توزيعات التأثيرات الصوتية(تم الاستلام بواسطة DAFx25) و تحسين تحسين وقت الاستدلال لنقل أسلوب التأثيرات الصوتية باستخدام أولوية غاوسية(مقبول من قبل WASPAA 2025).

يستخدم هذا البرنامج التعليمي بطاقة رسوميات RTX 5090 واحدة كمورد افتراضي، ولكن يمكن استخدام بطاقة رسوميات RTX 4090 واحدة على الأقل لبدء البرنامج.

2. أمثلة المشاريع

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. بعد الدخول إلى صفحة الويب، يمكنك استخدام النموذج

إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. يُرجى الانتظار دقيقتين أو ثلاث دقائق ثم تحديث الصفحة. عند استخدام Safari، قد لا يعمل الصوت مباشرةً، ويجب تنزيله أولًا.

أوصاف المعلمات ذات الصلة

وحدة التحكم الرئيسية والإعداد المسبق

الصوت السريع

تأثيرتحتوي لوحة التحكم الرئيسية على وظائف معالجة الصوت الأساسية والاختيارات المحددة مسبقًا.
يوضحهذه هي نقطة الدخول لسلسلة معالجة التأثيرات بأكملها، وهي المسؤولة عن تنسيق عمل جميع وحدات التأثيرات.

نسبة الجفاف/الرطوبة

تأثيرالتحكم في نسبة خلط الصوت الجاف (الصوت الأصلي) والصوت الرطب (الصوت المعالج)
يوضح:
- 0%: صوت جاف تمامًا، يُخرج الصوت الأصلي فقط.
- 50%: خلط توازن الصوت الجاف والرطب
- 100%: صوت رطب بالكامل، يخرج صوتًا معالجًا فقط.
طلبيتم استخدامه للتحكم في شدة معالجة التأثيرات وتجنب المعالجة المفرطة.

إخراج الصوت

تأثيرالناتج الصوتي المختلط النهائي
يوضحالنتيجة الكاملة بعد معالجة كافة التأثيرات والخلط الرطب/الجاف.

الصوت الجاف

تأثيرصوت خام وغير معالج بدون أي تأثيرات.
يوضحيحافظ على الخصائص الأصلية للتسجيل، مما يجعله مناسبًا للمقارنة أو المعالجة اللاحقة.

الصوت الرطب

تأثيرصوت رطب بعد معالجة جميع التأثيرات
يوضحالأصوات بما في ذلك جميع التأثيرات مثل المعادلة والضغط والتأخير والصدى.

حدد الإعداد المسبق (1~365)

تأثيراختيار مكتبة التأثيرات المسبقة
يوضح:
- يتضمن 365 إعدادًا مسبقًا للتأثيرات المضبوطة بشكل احترافي
- تغطية مجموعة واسعة من أنماط الموسيقى وخصائص الصوت
- ويمكن أن يكون بمثابة نقطة بداية للتعديلات الشخصية.

المعادل البارامتري

معادل المعلمات

تأثيرأدوات ضبط النغمة الدقيقة
يوضحمن الممكن تشكيل الخصائص الطيفية للصوت باستخدام مرشحات متعددة لتعزيز أو إضعاف نطاقات تردد محددة.

مرشح الترددات العالية

تأثيرقم بإزالة المكونات ذات التردد المنخفض أسفل التردد المحدد.
طلب:
- قم بإزالة الأصوات ذات التردد المنخفض مثل أصوات التنفس وأصوات الرياح.
- تقليل الضبابية وزيادة الوضوح
- الإعدادات النموذجية: 80-120 هرتز

الرف المنخفض (معادل التردد المنخفض من نوع الرف)

تأثير:التعزيز أو التوهين الشامل لجميع الترددات المنخفضة
طلب:
- زيادة سمك ودفء الصوت.
- تقليل صوت الازدهار منخفض التردد
- التردد النموذجي: 100-250 هرتز

مرشح الذروة

تأثيرضبط دقيق لنقاط التردد المحددة
طلب:
- إزالة قمم الرنين
- تعزيز الشعور بالحضور في الغناء
- تصحيح مشاكل الجرس في نطاقات التردد المحددة

معادل الرف العالي

تأثيرالتعزيز أو التوهين الشامل لجميع الترددات العالية
طلب:
- زيادة الشعور بالرحابة والسطوع
- تقليل الترددات العالية القاسية
- التردد النموذجي: 8-12 كيلوهرتز

تكرار

تأثيرحدد تردد المركز للمعالجة.
يوضح:يحدد نقطة التردد التي يعمل عليها الفلتر

يكسب

تأثير:التحكم في درجة تعزيز التردد أو تخفيفه
نِطَاقمن -12 ديسيبل إلى +12 ديسيبل
الآن: تعزيز هذا التردد
قيمة سلبيةتخفيف هذا التردد

تأثير:التحكم في عرض نطاق التردد المتأثر
يوضح:
- قيمة Q عاليةنطاق ضيق من النفوذ، واستهداف شديد
- قيمة Q منخفضةمجموعة واسعة من التأثيرات، تأثير سلس
طلبيتم استخدام Q الضيق للتصحيح الدقيق، بينما يتم استخدام Q الواسع للتعديل الشامل.

الضواغط والموسعات

الضاغط والموسع

تأثيرمعالج النطاق الديناميكي
وظيفةيقوم الضاغط بتقليل النطاق الديناميكي، بينما يقوم الممدد بزيادة النطاق الديناميكي.

عتبة

تأثيرقم بتعيين مستوى العتبة الذي يبدأ عنده الضغط/التوسيع.
يوضح:
- سيتم ضغط الإشارات فوق هذا المستوى.
- سيتم تضخيم الإشارات الموجودة أسفل هذا المستوى.
نِطَاق-60 ديسيبل إلى 0 ديسيبل

نسبة الضغط

تأثيرالتحكم في شدة الضغط
يوضح:
- 2:1ضغط خفيف
- 4:1ضغط متوسط
- 10:1ضغط قوي
- ∞:1تأثير المحدد

تعويض (الحصول على تعويض)

تأثيرتعويض عن فقدان المستوى بعد الضغط
طلب:لجعل الحجم بعد الضغط مساويًا للحجم قبل الضغط.

وقت الهجوم

تأثير:يتحكم في السرعة التي يبدأ بها الضاغط العمل
يوضح:
- البدء السريعالحفاظ على الحالة العابرة لزيادة التأثير.
- بداية بطيئةيخفف من الأصوات العابرة، مما يؤدي إلى الحصول على صوت أكثر سلاسة.
نِطَاق0.1-100 مللي ثانية

وقت الإصدار

تأثير:التحكم في السرعة التي يتوقف بها الضاغط عن العمل
يوضح:
- أطلق سراحه بسرعةقد يؤدي التعافي السريع إلى إحداث تأثير شفط.
- إطلاق بطيءاستعادة ديناميكية أبطأ، مما يؤدي إلى تأثير أكثر طبيعية.
نِطَاق50-1000 مللي ثانية

نسبة التوقع

تأثير:التحكم في شدة التوسع
يوضح:
- 1:2يتم خفض مستوى الإشارة إلى النصف عندما ينخفض إلى ما دون العتبة.
- 1:10قدرة قوية على التوسع، مما يقلل الضوضاء بشكل فعال.
نِطَاق: 0-1 (في الواقع هو مقلوب نسبة التوسع)

عتبة التوقع

تأثير:ضبط مستوى الجهد الأولي للموسع
يوضحسيتم إضعاف الإشارات الموجودة أسفل هذه العتبة بشكل أكبر.

معامل المتوسط التربيعي المتوسط

تأثير:التحكم في حساسية الضاغط لاستجابة الإشارة
يوضح:
- قيمة عاليةحساسة لحجم متوسط، استجابة سلسة
- قيمة منخفضةحساسة لقيم الذروة اللحظية، مع وقت استجابة سريع.
طلبضبط خصائص الاستجابة وفقًا لأسلوب الموسيقى واحتياجاتها

تأخير تنس الطاولة

تأخير بينج بونج

تأثيرتأثير تأخير الاستريو
سماتيتناوب الصدى بين القناتين اليسرى واليمنى.

وقت التأخير

تأثير:التحكم في الفاصل الزمني للصدى
نِطَاق100-1000 مللي ثانية
طلب:
- زمن انتقال قصير: يزيد من الإحساس بالمساحة والعمق
- تأخير طويل: يخلق تأثير صدى ملحوظ

تعليق

تأثيرالتحكم في عدد تكرارات الصدى
يوضح:
- ردود الفعل المنخفضةكمية صغيرة من الصدى
- ردود الفعل العاليةالتكرار المتكرر قد يؤدي إلى إثارة الذات.
نِطَاق: 0-1

يكسب

تأثير:التحكم في حجم تأثير التأخير
نِطَاق-80 ديسيبل إلى 0 ديسيبل

تأخير فردي/زوجي

تأثير:التحكم في موضع صورة الصوت للأصداء الفردية والزوجية على التوالي
يوضح:
- -100:القناة اليسرى بالضبط
- 0مركز
- 100القناة اليمنى الكاملة
طلبإنشاء تأثير حركة مكانية ثلاثية الأبعاد

تردد التمرير المنخفض

تأثيرتصفية الترددات المنخفضة للصدى المتأخر
طلب:
- فقدان التردد العالي يحاكي الاضمحلال الطبيعي
- إنشاء صدى دافئ وغير قاسي.

إرسال الصدى

تأثير:كمية إشارة التأخير المرسلة إلى الصدى
طلبإن إضافة إحساس بالمساحة إلى الأصداء المتأخرة يخلق تأثيرًا أكثر طبيعية.

صدى FDN

صدى FDN

تأثيرتأثير صدى رقمي عالي الجودة
سماتبناءً على شبكات تأخير التغذية الراجعة، فإنه يوفر محاكاة مكانية طبيعية.

تصحيح النغمة (PEQ)

تأثيرالمعادل داخل تأثير الصدى.
وظيفة:
- ضبط استجابة التردد لذيل الصدى
- التحكم في سطوع أو دفء الصدى.
- تجنب تعارض الصدى مع الصوت الرئيسي

وقت الاضمحلال

تأثيرالتحكم في زمن اضمحلال الصدى
يوضح:
- التوهين القصيرتأثير الغرفة الصغيرة
- التوهين الطويلتأثير القاعة أو الكنيسة
نِطَاق0-9 ثواني
طلبقم بضبط مدة الصدى وفقًا لحجم ومتطلبات المساحة.

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}

@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ 3 أشهر

الحجم

252.06 MB

الوسوم

التعرف على الصوت

الترخيص

MIT

GitHub

SonyResearch/diffvox

رابط الورقة البحثية

2504.14735

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي بطاقة رسوميات RTX 5090 واحدة كمورد افتراضي، ولكن يمكن استخدام بطاقة رسوميات RTX 4090 واحدة على الأقل لبدء البرنامج.

2. أمثلة المشاريع

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. بعد الدخول إلى صفحة الويب، يمكنك استخدام النموذج

إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. يُرجى الانتظار دقيقتين أو ثلاث دقائق ثم تحديث الصفحة. عند استخدام Safari، قد لا يعمل الصوت مباشرةً، ويجب تنزيله أولًا.

أوصاف المعلمات ذات الصلة

وحدة التحكم الرئيسية والإعداد المسبق

الصوت السريع

تأثيرتحتوي لوحة التحكم الرئيسية على وظائف معالجة الصوت الأساسية والاختيارات المحددة مسبقًا.
يوضحهذه هي نقطة الدخول لسلسلة معالجة التأثيرات بأكملها، وهي المسؤولة عن تنسيق عمل جميع وحدات التأثيرات.

نسبة الجفاف/الرطوبة

تأثيرالتحكم في نسبة خلط الصوت الجاف (الصوت الأصلي) والصوت الرطب (الصوت المعالج)
يوضح:
- 0%: صوت جاف تمامًا، يُخرج الصوت الأصلي فقط.
- 50%: خلط توازن الصوت الجاف والرطب
- 100%: صوت رطب بالكامل، يخرج صوتًا معالجًا فقط.
طلبيتم استخدامه للتحكم في شدة معالجة التأثيرات وتجنب المعالجة المفرطة.

إخراج الصوت

تأثيرالناتج الصوتي المختلط النهائي
يوضحالنتيجة الكاملة بعد معالجة كافة التأثيرات والخلط الرطب/الجاف.

الصوت الجاف

تأثيرصوت خام وغير معالج بدون أي تأثيرات.
يوضحيحافظ على الخصائص الأصلية للتسجيل، مما يجعله مناسبًا للمقارنة أو المعالجة اللاحقة.

الصوت الرطب

تأثيرصوت رطب بعد معالجة جميع التأثيرات
يوضحالأصوات بما في ذلك جميع التأثيرات مثل المعادلة والضغط والتأخير والصدى.

حدد الإعداد المسبق (1~365)

تأثيراختيار مكتبة التأثيرات المسبقة
يوضح:
- يتضمن 365 إعدادًا مسبقًا للتأثيرات المضبوطة بشكل احترافي
- تغطية مجموعة واسعة من أنماط الموسيقى وخصائص الصوت
- ويمكن أن يكون بمثابة نقطة بداية للتعديلات الشخصية.

المعادل البارامتري

معادل المعلمات

تأثيرأدوات ضبط النغمة الدقيقة
يوضحمن الممكن تشكيل الخصائص الطيفية للصوت باستخدام مرشحات متعددة لتعزيز أو إضعاف نطاقات تردد محددة.

مرشح الترددات العالية

تأثيرقم بإزالة المكونات ذات التردد المنخفض أسفل التردد المحدد.
طلب:
- قم بإزالة الأصوات ذات التردد المنخفض مثل أصوات التنفس وأصوات الرياح.
- تقليل الضبابية وزيادة الوضوح
- الإعدادات النموذجية: 80-120 هرتز

الرف المنخفض (معادل التردد المنخفض من نوع الرف)

تأثير:التعزيز أو التوهين الشامل لجميع الترددات المنخفضة
طلب:
- زيادة سمك ودفء الصوت.
- تقليل صوت الازدهار منخفض التردد
- التردد النموذجي: 100-250 هرتز

مرشح الذروة

تأثيرضبط دقيق لنقاط التردد المحددة
طلب:
- إزالة قمم الرنين
- تعزيز الشعور بالحضور في الغناء
- تصحيح مشاكل الجرس في نطاقات التردد المحددة

معادل الرف العالي

تأثيرالتعزيز أو التوهين الشامل لجميع الترددات العالية
طلب:
- زيادة الشعور بالرحابة والسطوع
- تقليل الترددات العالية القاسية
- التردد النموذجي: 8-12 كيلوهرتز

تكرار

تأثيرحدد تردد المركز للمعالجة.
يوضح:يحدد نقطة التردد التي يعمل عليها الفلتر

يكسب

تأثير:التحكم في درجة تعزيز التردد أو تخفيفه
نِطَاقمن -12 ديسيبل إلى +12 ديسيبل
الآن: تعزيز هذا التردد
قيمة سلبيةتخفيف هذا التردد

تأثير:التحكم في عرض نطاق التردد المتأثر
يوضح:
- قيمة Q عاليةنطاق ضيق من النفوذ، واستهداف شديد
- قيمة Q منخفضةمجموعة واسعة من التأثيرات، تأثير سلس
طلبيتم استخدام Q الضيق للتصحيح الدقيق، بينما يتم استخدام Q الواسع للتعديل الشامل.

الضواغط والموسعات

الضاغط والموسع

تأثيرمعالج النطاق الديناميكي
وظيفةيقوم الضاغط بتقليل النطاق الديناميكي، بينما يقوم الممدد بزيادة النطاق الديناميكي.

عتبة

تأثيرقم بتعيين مستوى العتبة الذي يبدأ عنده الضغط/التوسيع.
يوضح:
- سيتم ضغط الإشارات فوق هذا المستوى.
- سيتم تضخيم الإشارات الموجودة أسفل هذا المستوى.
نِطَاق-60 ديسيبل إلى 0 ديسيبل

نسبة الضغط

تأثيرالتحكم في شدة الضغط
يوضح:
- 2:1ضغط خفيف
- 4:1ضغط متوسط
- 10:1ضغط قوي
- ∞:1تأثير المحدد

تعويض (الحصول على تعويض)

تأثيرتعويض عن فقدان المستوى بعد الضغط
طلب:لجعل الحجم بعد الضغط مساويًا للحجم قبل الضغط.

وقت الهجوم

تأثير:يتحكم في السرعة التي يبدأ بها الضاغط العمل
يوضح:
- البدء السريعالحفاظ على الحالة العابرة لزيادة التأثير.
- بداية بطيئةيخفف من الأصوات العابرة، مما يؤدي إلى الحصول على صوت أكثر سلاسة.
نِطَاق0.1-100 مللي ثانية

وقت الإصدار

تأثير:التحكم في السرعة التي يتوقف بها الضاغط عن العمل
يوضح:
- أطلق سراحه بسرعةقد يؤدي التعافي السريع إلى إحداث تأثير شفط.
- إطلاق بطيءاستعادة ديناميكية أبطأ، مما يؤدي إلى تأثير أكثر طبيعية.
نِطَاق50-1000 مللي ثانية

نسبة التوقع

تأثير:التحكم في شدة التوسع
يوضح:
- 1:2يتم خفض مستوى الإشارة إلى النصف عندما ينخفض إلى ما دون العتبة.
- 1:10قدرة قوية على التوسع، مما يقلل الضوضاء بشكل فعال.
نِطَاق: 0-1 (في الواقع هو مقلوب نسبة التوسع)

عتبة التوقع

تأثير:ضبط مستوى الجهد الأولي للموسع
يوضحسيتم إضعاف الإشارات الموجودة أسفل هذه العتبة بشكل أكبر.

معامل المتوسط التربيعي المتوسط

تأثير:التحكم في حساسية الضاغط لاستجابة الإشارة
يوضح:
- قيمة عاليةحساسة لحجم متوسط، استجابة سلسة
- قيمة منخفضةحساسة لقيم الذروة اللحظية، مع وقت استجابة سريع.
طلبضبط خصائص الاستجابة وفقًا لأسلوب الموسيقى واحتياجاتها

تأخير تنس الطاولة

تأخير بينج بونج

تأثيرتأثير تأخير الاستريو
سماتيتناوب الصدى بين القناتين اليسرى واليمنى.

وقت التأخير

تأثير:التحكم في الفاصل الزمني للصدى
نِطَاق100-1000 مللي ثانية
طلب:
- زمن انتقال قصير: يزيد من الإحساس بالمساحة والعمق
- تأخير طويل: يخلق تأثير صدى ملحوظ

تعليق

تأثيرالتحكم في عدد تكرارات الصدى
يوضح:
- ردود الفعل المنخفضةكمية صغيرة من الصدى
- ردود الفعل العاليةالتكرار المتكرر قد يؤدي إلى إثارة الذات.
نِطَاق: 0-1

يكسب

تأثير:التحكم في حجم تأثير التأخير
نِطَاق-80 ديسيبل إلى 0 ديسيبل

تأخير فردي/زوجي

تأثير:التحكم في موضع صورة الصوت للأصداء الفردية والزوجية على التوالي
يوضح:
- -100:القناة اليسرى بالضبط
- 0مركز
- 100القناة اليمنى الكاملة
طلبإنشاء تأثير حركة مكانية ثلاثية الأبعاد

تردد التمرير المنخفض

تأثيرتصفية الترددات المنخفضة للصدى المتأخر
طلب:
- فقدان التردد العالي يحاكي الاضمحلال الطبيعي
- إنشاء صدى دافئ وغير قاسي.

إرسال الصدى

تأثير:كمية إشارة التأخير المرسلة إلى الصدى
طلبإن إضافة إحساس بالمساحة إلى الأصداء المتأخرة يخلق تأثيرًا أكثر طبيعية.

صدى FDN

صدى FDN

تأثيرتأثير صدى رقمي عالي الجودة
سماتبناءً على شبكات تأخير التغذية الراجعة، فإنه يوفر محاكاة مكانية طبيعية.

تصحيح النغمة (PEQ)

تأثيرالمعادل داخل تأثير الصدى.
وظيفة:
- ضبط استجابة التردد لذيل الصدى
- التحكم في سطوع أو دفء الصدى.
- تجنب تعارض الصدى مع الصوت الرئيسي

وقت الاضمحلال

تأثيرالتحكم في زمن اضمحلال الصدى
يوضح:
- التوهين القصيرتأثير الغرفة الصغيرة
- التوهين الطويلتأثير القاعة أو الكنيسة
نِطَاق0-9 ثواني
طلبقم بضبط مدة الصدى وفقًا لحجم ومتطلبات المساحة.

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}

@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

منذ 2 أشهر

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

منذ 2 أشهر

نشر VibeThinker-1.5B مع vLLM+OpenWebUI

منذ 3 أشهر

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

منذ 2 أشهر

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

منذ 2 أشهر

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

منذ 2 أشهر

تينسنت هونيوان فيديو-فولي

منذ شهر واحد

توليد الصوت kyutai-tts-1.6 b-en_fr

منذ شهر واحد

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

DiffVox: نموذج التمييز الصوتي

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. بعد الدخول إلى صفحة الويب، يمكنك استخدام النموذج

أوصاف المعلمات ذات الصلة

وحدة التحكم الرئيسية والإعداد المسبق

المعادل البارامتري

الضواغط والموسعات

تأخير تنس الطاولة

صدى FDN

معلومات الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DiffVox: نموذج التمييز الصوتي

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. بعد الدخول إلى صفحة الويب، يمكنك استخدام النموذج

أوصاف المعلمات ذات الصلة

وحدة التحكم الرئيسية والإعداد المسبق

المعادل البارامتري

الضواغط والموسعات

تأخير تنس الطاولة

صدى FDN

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

نشر VibeThinker-1.5B مع vLLM+OpenWebUI

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

تينسنت هونيوان فيديو-فولي

توليد الصوت kyutai-tts-1.6 b-en_fr

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DiffVox: نموذج التمييز الصوتي

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. بعد الدخول إلى صفحة الويب، يمكنك استخدام النموذج

أوصاف المعلمات ذات الصلة

وحدة التحكم الرئيسية والإعداد المسبق

المعادل البارامتري

الضواغط والموسعات

تأخير تنس الطاولة

صدى FDN

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

نشر VibeThinker-1.5B مع vLLM+OpenWebUI

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

تينسنت هونيوان فيديو-فولي

توليد الصوت kyutai-tts-1.6 b-en_fr

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

نشر VibeThinker-1.5B مع vLLM+OpenWebUI

Dia2-TTS: خدمة توليف الكلام في الوقت الحقيقي

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

تينسنت هونيوان فيديو-فولي

توليد الصوت kyutai-tts-1.6 b-en_fr

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

ذات صلة دفاتر تفاعلية

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة