VMoBA: مزيج انتباه الكتل لنموذج الفيديو التفاضلي

تعتبر التعقيد التربيعي لآليات الانتباه الكاملة عقبة كبيرة أمام نماذج تفتيت الفيديو (VDMs) الرامية إلى إنتاج مقاطع فيديو طويلة المدة وعالية الدقة. رغم اقتراح العديد من طرق الانتباه النادر، فإن الكثير منها مصمم كمعزِّزات استدلال خالية من التدريب أو لا تلتقط بشكل مثالي الخصائص المكانية-الزمانية الفريدة التي تتضمنها بيانات الفيديو عند التدريب الأصلي. يقدم هذا البحث آلية انتباه نادرة جديدة مُعدَّلة خصيصًا لنماذج تفتيت الفيديو، وهي "خليط انتباه الكتل للفيديو" (VMoBA). وقد تم تحفيز هذه الآلية من خلال تحليل عميق للأنماط الانتباهية داخل المتحولات المسبقة التدريب على الفيديو، والتي كشفت عن قوة المحلية المكانية-الزمانية، وتباين أهمية الاستفسارات، ومستويات التركيز الخاصة برأس كل مستشعر. تعزز VMoBA الإطار الأصلي لـ MoBA بثلاث تعديلات رئيسية: (1) نظام تقسيم كتل متكرر حسب الطبقات (1D-2D-3D) لكي يتكيف ديناميكيًا مع أنماط الانتباه المكانية-الزمانية المتعددة ويحسن الكفاءة؛ (2) اختيار كتل عالمي لتفضيل التفاعلات الأكثر بروزًا بين الكتل الاستفسار-المفتاح عبر رأس الانتباه بأكمله؛ و(3) اختيار كتل بناءً على حدود لتقرير عدد الكتل المعنية ديناميكيًا بناءً على تشابهها التراكمي. أظهرت التجارب الواسعة أن VMoBA تسريع بشكل كبير تدريب VDMs على سلاسل أطول، حيث حققت سرعة في العمليات العددية (FLOPs) بمقدار 2.92 مرة وفي زمن الاستجابة بمقدار 1.48 مرة، مع الحفاظ على جودة إنتاج مparable أو حتى أفضل من الانتباه الكامل. بالإضافة إلى ذلك، أثبتت VMoBA أداءً تنافسيًا في الاستدلال الخالي من التدريب، حيث قدمت سرعة في العمليات العددية بمقدار 2.40 مرة وفي زمن الاستجابة بمقدار 1.35 مرة لإنتاج مقاطع فيديو عالية الدقة.