منذ 8 أشهر

الملخص

هدف هذه الورقة هو إنشاء فيديو جذاب بصريًا يستجيب للموسيقى باستخدام شبكة عصبية، بحيث تعكس كل إطار من إطارات الفيديو الخصائص الموسيقية للقطعة الصوتية المقابلة. لتحقيق هذا الهدف، نقترح نظامًا للتصور الموسيقي بالشبكة العصبية يربط مباشرة بين تضمينات الموسيقى العميقة وتضمينات الأسلوب في StyleGAN، ويُسمى هذا النظام TräumerAI، والذي يتكون من نموذج تصنيف ذاتي للموسيقى يستخدم CNN قصير القطع وStyleGAN2 مُدرب على مجموعة بيانات WikiArt. بدلاً من وضع مقياس موضوعي بين الدلالات الموسيقية والبصرية، قمنا بتسمية الأزواج بطريقة ذاتية. حيث استمع مُصنف إلى 100 قطعة موسيقية مدتها 10 ثوانٍ واختار صورة تناسب الموسيقى من بين 200 مثال تم توليدها بواسطة StyleGAN. بناءً على البيانات المجمعة، قمنا بتدريب دالة تحويل بسيطة تقوم بتحويل تضمين الصوت إلى تضمين الأسلوب. تظهر الأمثلة المولدة أن التحويل بين الصوت والفيديو يحقق درجة معينة من التشابه داخل المقاطع وعدم التشابه بين المقاطع.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار