HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

إعادة التكوين: تحرير صوتي توليدي موجه بالتدفق الحدثي

Daniel P. W. Ellis Eduardo Fonseca Ron J. Weiss Kevin Wilson Scott Wisdom et al

إعادة التكوين: تحرير صوتي توليدي موجه بالتدفق الحدثي

الملخص

يُعدّ تحرير مشاهد الصوت الواقعية المعقدة تحديًا كبيرًا نظرًا لتشابك المصادر الصوتية المختلفة في الزمن. يمكن للنماذج التوليدية ملء التفاصيل المفقودة أو التالفة استنادًا إلى فهمها القوي للنطاق البياناتي. نقدّم نظامًا لتحرير الأحداث الصوتية الفردية ضمن مشاهد معقدة، قادرًا على حذف الأحداث أو إدراجها أو تعزيزها بناءً على وصفات تحرير نصية (مثل: "تعزيز الباب") وتمثيل بصري لتوقيت الحدث المستمد من عملية تحويل نصي تُعرف بـ"مُسَجّل الأحداث" (event roll). يعتمد النظام على نموذج مشفر-فكّاك باستخدام معمارية الترانسفورمر، يعمل على تمثيلات SoundStream، وتم تدريبه على أزواج صوتية اصطناعية (مدخلات، مخرجات مرغوبة)، تم إنشاؤها عن طريق إضافة أحداث صوتية منفصلة إلى خلفيات واقعية كثيفة. أظهرت النتائج أهمية كل جزء من وصفات التحرير — الفعل، والفئة، والتوقيت. وتُظهر هذه الدراسة أن مفهوم "إعادة التكوين" (recomposition) يُعد تطبيقًا مهمًا وواقعيًا في هذا المجال.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إعادة التكوين: تحرير صوتي توليدي موجه بالتدفق الحدثي | الأوراق البحثية | HyperAI