HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة التكوين: تحرير صوتي توليدي موجه بالتدفق الحدثي

Daniel P. W. Ellis Eduardo Fonseca Ron J. Weiss Kevin Wilson Scott Wisdom et al

الملخص

يُعدّ تحرير مشاهد الصوت الواقعية المعقدة تحديًا كبيرًا نظرًا لتشابك المصادر الصوتية المختلفة في الزمن. يمكن للنماذج التوليدية ملء التفاصيل المفقودة أو التالفة استنادًا إلى فهمها القوي للنطاق البياناتي. نقدّم نظامًا لتحرير الأحداث الصوتية الفردية ضمن مشاهد معقدة، قادرًا على حذف الأحداث أو إدراجها أو تعزيزها بناءً على وصفات تحرير نصية (مثل: "تعزيز الباب") وتمثيل بصري لتوقيت الحدث المستمد من عملية تحويل نصي تُعرف بـ"مُسَجّل الأحداث" (event roll). يعتمد النظام على نموذج مشفر-فكّاك باستخدام معمارية الترانسفورمر، يعمل على تمثيلات SoundStream، وتم تدريبه على أزواج صوتية اصطناعية (مدخلات، مخرجات مرغوبة)، تم إنشاؤها عن طريق إضافة أحداث صوتية منفصلة إلى خلفيات واقعية كثيفة. أظهرت النتائج أهمية كل جزء من وصفات التحرير — الفعل، والفئة، والتوقيت. وتُظهر هذه الدراسة أن مفهوم "إعادة التكوين" (recomposition) يُعد تطبيقًا مهمًا وواقعيًا في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إعادة التكوين: تحرير صوتي توليدي موجه بالتدفق الحدثي | مستندات | HyperAI