HyperAIHyperAI

Command Palette

Search for a command to run...

DiffVox: نموذج التمييز الصوتي

1. مقدمة البرنامج التعليمي

يبني

أُطلق مشروع DiffVox في مايو 2025 بالتعاون بين فريق بحثي من شركة Sony AI وشركة Sony Corporation وجامعة كوين ماري في لندن. تكمن الميزة الأساسية لهذا النموذج في أسلوبه المتطور لتحسين زمن الاستدلال، وإدخاله المبتكر لقيود Gaussian المسبقة. يتيح هذا له تحويل تسجيل صوتي بشري خام بذكاء إلى صوت عالي الجودة يُقارب مستوى الصوت المرجعي المستهدف، ويتوافق مع معايير المزج الاحترافية من حيث المعلمات. وهو نموذج متقدم يُركز على نقل أسلوب الصوت البشري، وعنوان الورقة البحثية ذات الصلة هو "...".DiffVox: نموذج قابل للتفاضل لالتقاط وتحليل توزيعات التأثيرات الصوتية"(تم استلامه بواسطة DAFx25)" و "تحسين تحسين وقت الاستدلال لنقل أسلوب التأثيرات الصوتية باستخدام أولوية غاوسية(تم قبوله بموجب WASPAA 2025).

يستخدم هذا البرنامج التعليمي بطاقة رسوميات RTX 5090 واحدة كمورد افتراضي، ولكن يمكن استخدام بطاقة رسوميات RTX 4090 واحدة على الأقل لبدء البرنامج.

2. أمثلة المشاريع

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. بعد الدخول إلى صفحة الويب، يمكنك استخدام النموذج

إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. يُرجى الانتظار دقيقتين أو ثلاث دقائق ثم تحديث الصفحة. عند استخدام Safari، قد لا يعمل الصوت مباشرةً، ويجب تنزيله أولًا.

أوصاف المعلمات ذات الصلة

وحدة التحكم الرئيسية والإعداد المسبق

الصوت السريع

  • تأثيرتحتوي لوحة التحكم الرئيسية على وظائف معالجة الصوت الأساسية والاختيارات المحددة مسبقًا.
  • يوضحهذه هي نقطة الدخول لسلسلة معالجة التأثيرات بأكملها، وهي المسؤولة عن تنسيق عمل جميع وحدات التأثيرات.

نسبة الجفاف/الرطوبة

  • تأثيرالتحكم في نسبة خلط الصوت الجاف (الصوت الأصلي) والصوت الرطب (الصوت المعالج)
  • يوضح:
    • 0%: صوت جاف تمامًا، يُخرج الصوت الأصلي فقط.
    • 50%: خلط توازن الصوت الجاف والرطب
    • 100%: صوت رطب بالكامل، يخرج صوتًا معالجًا فقط.
  • طلبيتم استخدامه للتحكم في شدة معالجة التأثيرات وتجنب المعالجة المفرطة.

إخراج الصوت

  • تأثيرالناتج الصوتي المختلط النهائي
  • يوضحالنتيجة الكاملة بعد معالجة كافة التأثيرات والخلط الرطب/الجاف.

الصوت الجاف

  • تأثيرصوت خام وغير معالج بدون أي تأثيرات.
  • يوضحيحافظ على الخصائص الأصلية للتسجيل، مما يجعله مناسبًا للمقارنة أو المعالجة اللاحقة.

الصوت الرطب

  • تأثيرصوت رطب بعد معالجة جميع التأثيرات
  • يوضحالأصوات بما في ذلك جميع التأثيرات مثل المعادلة والضغط والتأخير والصدى.

حدد الإعداد المسبق (1~365)

  • تأثيراختيار مكتبة التأثيرات المسبقة
  • يوضح:
    • يتضمن 365 إعدادًا مسبقًا للتأثيرات المضبوطة بشكل احترافي
    • تغطية مجموعة واسعة من أنماط الموسيقى وخصائص الصوت
    • ويمكن أن يكون بمثابة نقطة بداية للتعديلات الشخصية.

المعادل البارامتري

معادل المعلمات

  • تأثيرأدوات ضبط النغمة الدقيقة
  • يوضحمن الممكن تشكيل الخصائص الطيفية للصوت باستخدام مرشحات متعددة لتعزيز أو إضعاف نطاقات تردد محددة.

مرشح الترددات العالية

  • تأثيرقم بإزالة المكونات ذات التردد المنخفض أسفل التردد المحدد.
  • طلب:
    • قم بإزالة الأصوات ذات التردد المنخفض مثل أصوات التنفس وأصوات الرياح.
    • تقليل الضبابية وزيادة الوضوح
    • الإعدادات النموذجية: 80-120 هرتز

الرف المنخفض (معادل التردد المنخفض من نوع الرف)

  • تأثير:التعزيز أو التوهين الشامل لجميع الترددات المنخفضة
  • طلب:
    • زيادة سمك ودفء الصوت.
    • تقليل صوت الازدهار منخفض التردد
    • التردد النموذجي: 100-250 هرتز

مرشح الذروة

  • تأثيرضبط دقيق لنقاط التردد المحددة
  • طلب:
    • إزالة قمم الرنين
    • تعزيز الشعور بالحضور في الغناء
    • تصحيح مشاكل الجرس في نطاقات التردد المحددة

معادل الرف العالي

  • تأثيرالتعزيز أو التوهين الشامل لجميع الترددات العالية
  • طلب:
    • زيادة الشعور بالرحابة والسطوع
    • تقليل الترددات العالية القاسية
    • التردد النموذجي: 8-12 كيلوهرتز

تكرار

  • تأثيرحدد تردد المركز للمعالجة.
  • يوضح:يحدد نقطة التردد التي يعمل عليها الفلتر

يكسب

  • تأثير:التحكم في درجة تعزيز التردد أو تخفيفه
  • نِطَاقمن -12 ديسيبل إلى +12 ديسيبل
  • الآن: تعزيز هذا التردد
  • قيمة سلبيةتخفيف هذا التردد

س

  • تأثير:التحكم في عرض نطاق التردد المتأثر
  • يوضح:
    • قيمة Q عاليةنطاق ضيق من النفوذ، واستهداف شديد
    • قيمة Q منخفضةمجموعة واسعة من التأثيرات، تأثير سلس
  • طلبيتم استخدام Q الضيق للتصحيح الدقيق، بينما يتم استخدام Q الواسع للتعديل الشامل.

الضواغط والموسعات

الضاغط والموسع

  • تأثيرمعالج النطاق الديناميكي
  • وظيفةيقوم الضاغط بتقليل النطاق الديناميكي، بينما يقوم الممدد بزيادة النطاق الديناميكي.

عتبة

  • تأثيرقم بتعيين مستوى العتبة الذي يبدأ عنده الضغط/التوسيع.
  • يوضح:
    • سيتم ضغط الإشارات فوق هذا المستوى.
    • سيتم تضخيم الإشارات الموجودة أسفل هذا المستوى.
  • نِطَاق-60 ديسيبل إلى 0 ديسيبل

نسبة الضغط

  • تأثيرالتحكم في شدة الضغط
  • يوضح:
    • 2:1ضغط خفيف
    • 4:1ضغط متوسط
    • 10:1ضغط قوي
    • ∞:1تأثير المحدد

تعويض (الحصول على تعويض)

  • تأثيرتعويض عن فقدان المستوى بعد الضغط
  • طلب:لجعل الحجم بعد الضغط مساويًا للحجم قبل الضغط.

وقت الهجوم

  • تأثير:يتحكم في السرعة التي يبدأ بها الضاغط العمل
  • يوضح:
    • البدء السريعالحفاظ على الحالة العابرة لزيادة التأثير.
    • بداية بطيئةيخفف من الأصوات العابرة، مما يؤدي إلى الحصول على صوت أكثر سلاسة.
  • نِطَاق0.1-100 مللي ثانية

وقت الإصدار

  • تأثير:التحكم في السرعة التي يتوقف بها الضاغط عن العمل
  • يوضح:
    • أطلق سراحه بسرعةقد يؤدي التعافي السريع إلى إحداث تأثير شفط.
    • إطلاق بطيءاستعادة ديناميكية أبطأ، مما يؤدي إلى تأثير أكثر طبيعية.
  • نِطَاق50-1000 مللي ثانية

نسبة التوقع

  • تأثير:التحكم في شدة التوسع
  • يوضح:
    • 1:2يتم خفض مستوى الإشارة إلى النصف عندما ينخفض إلى ما دون العتبة.
    • 1:10قدرة قوية على التوسع، مما يقلل الضوضاء بشكل فعال.
  • نِطَاق: 0-1 (في الواقع هو مقلوب نسبة التوسع)

عتبة التوقع

  • تأثير:ضبط مستوى الجهد الأولي للموسع
  • يوضحسيتم إضعاف الإشارات الموجودة أسفل هذه العتبة بشكل أكبر.

معامل المتوسط التربيعي المتوسط

  • تأثير:التحكم في حساسية الضاغط لاستجابة الإشارة
  • يوضح:
    • قيمة عاليةحساسة لحجم متوسط، استجابة سلسة
    • قيمة منخفضةحساسة لقيم الذروة اللحظية، مع وقت استجابة سريع.
  • طلبضبط خصائص الاستجابة وفقًا لأسلوب الموسيقى واحتياجاتها

تأخير تنس الطاولة

تأخير بينج بونج

  • تأثيرتأثير تأخير الاستريو
  • سماتيتناوب الصدى بين القناتين اليسرى واليمنى.

وقت التأخير

  • تأثير:التحكم في الفاصل الزمني للصدى
  • نِطَاق100-1000 مللي ثانية
  • طلب:
    • زمن انتقال قصير: يزيد من الإحساس بالمساحة والعمق
    • تأخير طويل: يخلق تأثير صدى ملحوظ

تعليق

  • تأثيرالتحكم في عدد تكرارات الصدى
  • يوضح:
    • ردود الفعل المنخفضةكمية صغيرة من الصدى
    • ردود الفعل العاليةالتكرار المتكرر قد يؤدي إلى إثارة الذات.
  • نِطَاق: 0-1

يكسب

  • تأثير:التحكم في حجم تأثير التأخير
  • نِطَاق-80 ديسيبل إلى 0 ديسيبل

تأخير فردي/زوجي

  • تأثير:التحكم في موضع صورة الصوت للأصداء الفردية والزوجية على التوالي
  • يوضح:
    • -100:القناة اليسرى بالضبط
    • 0مركز
    • 100القناة اليمنى الكاملة
  • طلبإنشاء تأثير حركة مكانية ثلاثية الأبعاد

تردد التمرير المنخفض

  • تأثيرتصفية الترددات المنخفضة للصدى المتأخر
  • طلب:
    • فقدان التردد العالي يحاكي الاضمحلال الطبيعي
    • إنشاء صدى دافئ وغير قاسي.

إرسال الصدى

  • تأثير:كمية إشارة التأخير المرسلة إلى الصدى
  • طلبإن إضافة إحساس بالمساحة إلى الأصداء المتأخرة يخلق تأثيرًا أكثر طبيعية.

صدى FDN

صدى FDN

  • تأثيرتأثير صدى رقمي عالي الجودة
  • سماتبناءً على شبكات تأخير التغذية الراجعة، فإنه يوفر محاكاة مكانية طبيعية.

تصحيح النغمة (PEQ)

  • تأثيرالمعادل داخل تأثير الصدى.
  • وظيفة:
    • ضبط استجابة التردد لذيل الصدى
    • التحكم في سطوع أو دفء الصدى.
    • تجنب تعارض الصدى مع الصوت الرئيسي

وقت الاضمحلال

  • تأثيرالتحكم في زمن اضمحلال الصدى
  • يوضح:
    • التوهين القصيرتأثير الغرفة الصغيرة
    • التوهين الطويلتأثير القاعة أو الكنيسة
  • نِطَاق0-9 ثواني
  • طلبقم بضبط مدة الصدى وفقًا لحجم ومتطلبات المساحة.

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}
@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DiffVox: نموذج التمييز الصوتي | الدروس | HyperAI