منذ 5 أشهر

الملخص

يُعدّ تحرير مشاهد الصوت الواقعية المعقدة تحديًا كبيرًا نظرًا لتشابك المصادر الصوتية المختلفة في الزمن. يمكن للنماذج التوليدية ملء التفاصيل المفقودة أو التالفة استنادًا إلى فهمها القوي للنطاق البياناتي. نقدّم نظامًا لتحرير الأحداث الصوتية الفردية ضمن مشاهد معقدة، قادرًا على حذف الأحداث أو إدراجها أو تعزيزها بناءً على وصفات تحرير نصية (مثل: "تعزيز الباب") وتمثيل بصري لتوقيت الحدث المستمد من عملية تحويل نصي تُعرف بـ"مُسَجّل الأحداث" (event roll). يعتمد النظام على نموذج مشفر-فكّاك باستخدام معمارية الترانسفورمر، يعمل على تمثيلات SoundStream، وتم تدريبه على أزواج صوتية اصطناعية (مدخلات، مخرجات مرغوبة)، تم إنشاؤها عن طريق إضافة أحداث صوتية منفصلة إلى خلفيات واقعية كثيفة. أظهرت النتائج أهمية كل جزء من وصفات التحرير — الفعل، والفئة، والتوقيت. وتُظهر هذه الدراسة أن مفهوم "إعادة التكوين" (recomposition) يُعد تطبيقًا مهمًا وواقعيًا في هذا المجال.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار