Command Palette
Search for a command to run...
Daniel P. W. Ellis Eduardo Fonseca Ron J. Weiss Kevin Wilson Scott Wisdom et al

الملخص
يُعدّ تحرير مشاهد الصوت الواقعية المعقدة تحديًا كبيرًا نظرًا لتشابك المصادر الصوتية المختلفة في الزمن. يمكن للنماذج التوليدية ملء التفاصيل المفقودة أو التالفة استنادًا إلى فهمها القوي للنطاق البياناتي. نقدّم نظامًا لتحرير الأحداث الصوتية الفردية ضمن مشاهد معقدة، قادرًا على حذف الأحداث أو إدراجها أو تعزيزها بناءً على وصفات تحرير نصية (مثل: "تعزيز الباب") وتمثيل بصري لتوقيت الحدث المستمد من عملية تحويل نصي تُعرف بـ"مُسَجّل الأحداث" (event roll). يعتمد النظام على نموذج مشفر-فكّاك باستخدام معمارية الترانسفورمر، يعمل على تمثيلات SoundStream، وتم تدريبه على أزواج صوتية اصطناعية (مدخلات، مخرجات مرغوبة)، تم إنشاؤها عن طريق إضافة أحداث صوتية منفصلة إلى خلفيات واقعية كثيفة. أظهرت النتائج أهمية كل جزء من وصفات التحرير — الفعل، والفئة، والتوقيت. وتُظهر هذه الدراسة أن مفهوم "إعادة التكوين" (recomposition) يُعد تطبيقًا مهمًا وواقعيًا في هذا المجال.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.