HyperAIHyperAI

Command Palette

Search for a command to run...

توسيع نماذج الفيديو ذات الترتيب الذاتي

Dirk Weissenborn* Google Research [email protected] Oscar Täckström*† Sana Labs [email protected] Jakob Uszkoreit Google Research [email protected]

الملخص

بسبب التعقيد الإحصائي للفيديو، درجة عالية من العشوائية المتأصلة، وكثافة البيانات الهائلة، لا يزال إنتاج الفيديو الطبيعي مهمة صعبة. تسعى النماذج الرائدة لإنتاج الفيديو غالبًا إلى معالجة هذه القضايا من خلال الجمع بين هياكل شبكات عصبية معقدة ومحددة للفيديو في بعض الأحيان، ونماذج المتغيرات الكامنة، والتدريب المعادي (adversarial training) وطيف واسع من الأساليب الأخرى. رغم تعقيدها العالي غالبًا، فإن هذه النماذج لا تزال تفتقر إلى إنتاج استمرارات فيديو ذات جودة عالية خارج المجالات الضيقة وتواجه صعوبات في الحفاظ على الدقة. بالمقابل، نظهر أن النماذج البسيطة مفهوميًا لإنتاج الفيديو المستندة إلى آلية الانتباه الذاتي ثلاثية الأبعاد تحقق نتائج تنافسية عبر عدة مقاييس على مجموعات بيانات مرجعية شائعة، حيث تنتج استمرارات ذات دقة وواقعية عالية. كما نقدم أيضًا نتائج التدريب لنماذجنا على Kinetics، وهي مجموعة بيانات كبيرة الحجم لتحديد الأفعال تتكون من مقاطع فيديو على YouTube تعرض ظواهر مثل حركة الكاميرا، التفاعلات المعقدة للأجسام والمovements البشرية المتنوعة. بينما ما زالت نمذجة هذه الظواهر بشكل مستمر بعيدة المنال، فإننا نأمل أن تشجع نتائجنا التي تتضمن أحيانًا استمرارات واقعية على المزيد من البحث حول مجموعات بيانات كبيرة ومعقدة نسبيًا مثل Kinetics.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
توسيع نماذج الفيديو ذات الترتيب الذاتي | مستندات | HyperAI