منذ 7 أشهر

الملخص

يمكن تقسيم الإشارات البصرية في الفيديو إلى محتوى وحركة. بينما يحدد المحتوى الأشياء الموجودة في الفيديو، تصف الحركة ديناميكيتها. استنادًا إلى هذا الأساس، نقترح إطار الشبكة المعادية التوليدية المفككة بين الحركة والمحتوى (MoCoGAN) لتكوين الفيديوهات. يقوم الإطار المقترح بتكوين الفيديو من خلال رسم خريطة لمتتالية من المتجهات العشوائية إلى متتالية من إطارات الفيديو. يتكون كل متجه عشوائي من جزء محتوى وجزء حركة. بينما يتم الاحتفاظ بجزء المحتوى ثابتًا، يتم تحقيق جزء الحركة كعملية عشوائية. للتعلم غير المنظور لتقسيم الحركة والمحتوى، نقدم مخطط تعلم معادي جديد يستخدم كلًّا من تمييز الصور وتمييز الفيديوهات. تؤكد النتائج التجريبية الواسعة على عدة مجموعات بيانات صعبة، والتي تتضمن مقارنة نوعية وكمية مع أحدث الأساليب، فعالية الإطار المقترح. بالإضافة إلى ذلك، نوضح أن MoCoGAN يتيح إمكانية تكوين مقاطع فيديو ذات نفس المحتوى ولكن حركات مختلفة، وكذلك مقاطع فيديو ذات محتويات مختلفة ولكن نفس الحركة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار