HyperAIHyperAI

Command Palette

Search for a command to run...

إلى النمذجة التوليدية النهائية الطويلة للفيديوهات باستخدام التحولات ثنائية الاتجاه الفعالة في الذاكرة

Jaehoon Yoo Semin Kim Doyup Lee Chiheon Kim Seunghoon Hong

الملخص

أظهرت نماذج الترانسفورمر ذاتية التوليد نجاحًا ملحوظًا في إنشاء الفيديو. ومع ذلك، تُمنع هذه النماذج من تعلّم الاعتماديات طويلة المدى في الفيديوهات بسبب التعقيد التربيعي لآلية الانتباه الذاتي، كما أنها تعاني بشكل جوهري من زمن استجابة بطيء وانتشار أخطاء ناتج عن عملية التوليد التسلسلي. في هذا البحث، نقترح نموذج الترانسفورمر ثنائي الاتجاه الفعّال في استخدام الذاكرة (MeBT) لتعلم الاعتماديات طويلة المدى في الفيديوهات بشكل مباشر من البداية إلى النهاية، مع تمكين استجابة سريعة. بالاعتماد على التطورات الحديثة في نماذج الترانسفورمر الثنائية الاتجاه، يتعلم نهجنا تفكيك الحجم الزماني-المكاني الكامل للفيديو بشكل متوازٍ من خلال قطع جزئية ملاحظة. ويحقق الترانسفورمر المقترح تعقيدًا زمنيًا خطيًا في كل من الترميز (الترميز) والفك، وذلك من خلال تمرير رموز السياق القابلة للملاحظة إلى عدد ثابت من الرموز الخفية، ثم توجيهها لفك الرموز المُقنّعة من خلال الانتباه المتقاطع. وبفضل التعقيد الخطي والنمذجة الثنائية الاتجاه، تُظهر طريقة عملنا تحسينًا ملحوظًا مقارنة بنماذج الترانسفورمر ذاتية التوليد في جودة وسرعة إنشاء مقاطع فيديو متوسطة الطول. يمكن الاطلاع على مقاطع الفيديو والكود عبر الرابط: https://sites.google.com/view/mebt-cvpr2023.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp