Command Palette
Search for a command to run...
Shengqu Cai Ceyuan Yang Lvmin Zhang Yuwei Guo Junfei Xiao et al

الملخص
يُعد إنشاء الفيديوهات الطويلة مشكلة أساسية تتعلق بالذاكرة في السياقات الطويلة: إذ يجب على النماذج الاحتفاظ بالحوادث البارزة واسترجاعها عبر فترات زمنية طويلة دون أن تتدهور أو تتشتت. ومع ذلك، فإن توسيع نماذج التحويل (Transformer) المبنية على التشتت (Diffusion) لإنجاز إنشاء فيديوهات ذات سياقات طويلة يواجه قيودًا جوهرية ناتجة عن التكلفة التربيعية لآلية الانتباه الذاتي، مما يجعل الذاكرة والحساب غير قابلين للحل، وصعوبة التحسين بالنسبة للتسلسلات الطويلة. نعيد صياغة مسألة إنشاء الفيديوهات ذات السياقات الطويلة كمهمة داخلية لاسترجاع المعلومات، ونقترح وحدة بسيطة قابلة للتعلم لاختيار الانتباه النادرة، تُسمى "مزيج السياقات" (Mixture of Contexts - MoC)، كمحرك فعّال لاسترجاع الذاكرة طويلة المدى. في إطار MoC، يختار كل استعلام بشكل ديناميكي عددًا قليلاً من القطع المفيدة، إلى جانب نقاط مقررة إلزامية (مثل العنوان الوصفي، والنوافذ المحلية) للتركيز عليها، مع استخدام توجيه مسبب (Causal Routing) يمنع حدوث إغلاقات دائرية. ومع التوسع في حجم البيانات وتخفيف تدريجي لاختيار المسارات، تقوم النموذج بتخصيص الموارد الحسابية للماضي البارز، مما يحافظ على هويات الشخصيات، والإجراءات، والمشاهد على مدار دقائق من المحتوى. وتظهر الكفاءة كنتيجة ثانوية لعملية الاسترجاع (بمعدل تكامل تقريبي خطي)، ما يمكّن من التدريب العملي وإنشاء المحتوى، وظهور الذاكرة والاتساق في نطاق دقائق.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.