HyperAIHyperAI
منذ 3 أشهر

إلى النمذجة التوليدية النهائية الطويلة للفيديوهات باستخدام التحولات ثنائية الاتجاه الفعالة في الذاكرة

Jaehoon Yoo, Semin Kim, Doyup Lee, Chiheon Kim, Seunghoon Hong
إلى النمذجة التوليدية النهائية الطويلة للفيديوهات باستخدام التحولات ثنائية الاتجاه الفعالة في الذاكرة
الملخص

أظهرت نماذج الترانسفورمر ذاتية التوليد نجاحًا ملحوظًا في إنشاء الفيديو. ومع ذلك، تُمنع هذه النماذج من تعلّم الاعتماديات طويلة المدى في الفيديوهات بسبب التعقيد التربيعي لآلية الانتباه الذاتي، كما أنها تعاني بشكل جوهري من زمن استجابة بطيء وانتشار أخطاء ناتج عن عملية التوليد التسلسلي. في هذا البحث، نقترح نموذج الترانسفورمر ثنائي الاتجاه الفعّال في استخدام الذاكرة (MeBT) لتعلم الاعتماديات طويلة المدى في الفيديوهات بشكل مباشر من البداية إلى النهاية، مع تمكين استجابة سريعة. بالاعتماد على التطورات الحديثة في نماذج الترانسفورمر الثنائية الاتجاه، يتعلم نهجنا تفكيك الحجم الزماني-المكاني الكامل للفيديو بشكل متوازٍ من خلال قطع جزئية ملاحظة. ويحقق الترانسفورمر المقترح تعقيدًا زمنيًا خطيًا في كل من الترميز (الترميز) والفك، وذلك من خلال تمرير رموز السياق القابلة للملاحظة إلى عدد ثابت من الرموز الخفية، ثم توجيهها لفك الرموز المُقنّعة من خلال الانتباه المتقاطع. وبفضل التعقيد الخطي والنمذجة الثنائية الاتجاه، تُظهر طريقة عملنا تحسينًا ملحوظًا مقارنة بنماذج الترانسفورمر ذاتية التوليد في جودة وسرعة إنشاء مقاطع فيديو متوسطة الطول. يمكن الاطلاع على مقاطع الفيديو والكود عبر الرابط: https://sites.google.com/view/mebt-cvpr2023.