HyperAIHyperAI

Command Palette

Search for a command to run...

VMoBA: مزيج انتباه الكتل لنموذج الفيديو التفاضلي

Jianzong Wu Liang Hou Haotian Yang Xin Tao Ye Tian Pengfei Wan Di Zhang Yunhai Tong

الملخص

تعتبر التعقيد التربيعي لآليات الانتباه الكاملة عقبة كبيرة أمام نماذج تفتيت الفيديو (VDMs) الرامية إلى إنتاج مقاطع فيديو طويلة المدة وعالية الدقة. رغم اقتراح العديد من طرق الانتباه النادر، فإن الكثير منها مصمم كمعزِّزات استدلال خالية من التدريب أو لا تلتقط بشكل مثالي الخصائص المكانية-الزمانية الفريدة التي تتضمنها بيانات الفيديو عند التدريب الأصلي. يقدم هذا البحث آلية انتباه نادرة جديدة مُعدَّلة خصيصًا لنماذج تفتيت الفيديو، وهي "خليط انتباه الكتل للفيديو" (VMoBA). وقد تم تحفيز هذه الآلية من خلال تحليل عميق للأنماط الانتباهية داخل المتحولات المسبقة التدريب على الفيديو، والتي كشفت عن قوة المحلية المكانية-الزمانية، وتباين أهمية الاستفسارات، ومستويات التركيز الخاصة برأس كل مستشعر. تعزز VMoBA الإطار الأصلي لـ MoBA بثلاث تعديلات رئيسية: (1) نظام تقسيم كتل متكرر حسب الطبقات (1D-2D-3D) لكي يتكيف ديناميكيًا مع أنماط الانتباه المكانية-الزمانية المتعددة ويحسن الكفاءة؛ (2) اختيار كتل عالمي لتفضيل التفاعلات الأكثر بروزًا بين الكتل الاستفسار-المفتاح عبر رأس الانتباه بأكمله؛ و(3) اختيار كتل بناءً على حدود لتقرير عدد الكتل المعنية ديناميكيًا بناءً على تشابهها التراكمي. أظهرت التجارب الواسعة أن VMoBA تسريع بشكل كبير تدريب VDMs على سلاسل أطول، حيث حققت سرعة في العمليات العددية (FLOPs) بمقدار 2.92 مرة وفي زمن الاستجابة بمقدار 1.48 مرة، مع الحفاظ على جودة إنتاج مparable أو حتى أفضل من الانتباه الكامل. بالإضافة إلى ذلك، أثبتت VMoBA أداءً تنافسيًا في الاستدلال الخالي من التدريب، حيث قدمت سرعة في العمليات العددية بمقدار 2.40 مرة وفي زمن الاستجابة بمقدار 1.35 مرة لإنتاج مقاطع فيديو عالية الدقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VMoBA: مزيج انتباه الكتل لنموذج الفيديو التفاضلي | مستندات | HyperAI