منذ 7 أشهر

الملخص

تعتبر التعقيد التربيعي لآليات الانتباه الكاملة عقبة كبيرة أمام نماذج تفتيت الفيديو (VDMs) الرامية إلى إنتاج مقاطع فيديو طويلة المدة وعالية الدقة. رغم اقتراح العديد من طرق الانتباه النادر، فإن الكثير منها مصمم كمعزِّزات استدلال خالية من التدريب أو لا تلتقط بشكل مثالي الخصائص المكانية-الزمانية الفريدة التي تتضمنها بيانات الفيديو عند التدريب الأصلي. يقدم هذا البحث آلية انتباه نادرة جديدة مُعدَّلة خصيصًا لنماذج تفتيت الفيديو، وهي "خليط انتباه الكتل للفيديو" (VMoBA). وقد تم تحفيز هذه الآلية من خلال تحليل عميق للأنماط الانتباهية داخل المتحولات المسبقة التدريب على الفيديو، والتي كشفت عن قوة المحلية المكانية-الزمانية، وتباين أهمية الاستفسارات، ومستويات التركيز الخاصة برأس كل مستشعر. تعزز VMoBA الإطار الأصلي لـ MoBA بثلاث تعديلات رئيسية: (1) نظام تقسيم كتل متكرر حسب الطبقات (1D-2D-3D) لكي يتكيف ديناميكيًا مع أنماط الانتباه المكانية-الزمانية المتعددة ويحسن الكفاءة؛ (2) اختيار كتل عالمي لتفضيل التفاعلات الأكثر بروزًا بين الكتل الاستفسار-المفتاح عبر رأس الانتباه بأكمله؛ و(3) اختيار كتل بناءً على حدود لتقرير عدد الكتل المعنية ديناميكيًا بناءً على تشابهها التراكمي. أظهرت التجارب الواسعة أن VMoBA تسريع بشكل كبير تدريب VDMs على سلاسل أطول، حيث حققت سرعة في العمليات العددية (FLOPs) بمقدار 2.92 مرة وفي زمن الاستجابة بمقدار 1.48 مرة، مع الحفاظ على جودة إنتاج مparable أو حتى أفضل من الانتباه الكامل. بالإضافة إلى ذلك، أثبتت VMoBA أداءً تنافسيًا في الاستدلال الخالي من التدريب، حيث قدمت سرعة في العمليات العددية بمقدار 2.40 مرة وفي زمن الاستجابة بمقدار 1.35 مرة لإنتاج مقاطع فيديو عالية الدقة.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Jianzong Wu Liang Hou Haotian Yang Xin Tao Ye Tian Pengfei Wan Di Zhang Yunhai Tong

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jianzong Wu Liang Hou Haotian Yang Xin Tao Ye Tian Pengfei Wan Di Zhang Yunhai Tong

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jianzong Wu Liang Hou Haotian Yang Xin Tao Ye Tian Pengfei Wan Di Zhang Yunhai Tong

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VMoBA: مزيج انتباه الكتل لنموذج الفيديو التفاضلي

Jianzong Wu Liang Hou Haotian Yang Xin Tao Ye Tian Pengfei Wan Di Zhang Yunhai Tong

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VMoBA: مزيج انتباه الكتل لنموذج الفيديو التفاضلي

Jianzong Wu Liang Hou Haotian Yang Xin Tao Ye Tian Pengfei Wan Di Zhang Yunhai Tong

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VMoBA: مزيج انتباه الكتل لنموذج الفيديو التفاضلي

Jianzong Wu Liang Hou Haotian Yang Xin Tao Ye Tian Pengfei Wan Di Zhang Yunhai Tong

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters