Command Palette
Search for a command to run...
مزيج من السياقات لإنشاء مقاطع فيديو طويلة
مزيج من السياقات لإنشاء مقاطع فيديو طويلة
Shengqu Cai Ceyuan Yang Lvmin Zhang Yuwei Guo Junfei Xiao et al
الملخص
يُعد إنشاء الفيديوهات الطويلة مشكلة أساسية تتعلق بالذاكرة في السياقات الطويلة: إذ يجب على النماذج الاحتفاظ بالحوادث البارزة واسترجاعها عبر فترات زمنية طويلة دون أن تتدهور أو تتشتت. ومع ذلك، فإن توسيع نماذج التحويل (Transformer) المبنية على التشتت (Diffusion) لإنجاز إنشاء فيديوهات ذات سياقات طويلة يواجه قيودًا جوهرية ناتجة عن التكلفة التربيعية لآلية الانتباه الذاتي، مما يجعل الذاكرة والحساب غير قابلين للحل، وصعوبة التحسين بالنسبة للتسلسلات الطويلة. نعيد صياغة مسألة إنشاء الفيديوهات ذات السياقات الطويلة كمهمة داخلية لاسترجاع المعلومات، ونقترح وحدة بسيطة قابلة للتعلم لاختيار الانتباه النادرة، تُسمى "مزيج السياقات" (Mixture of Contexts - MoC)، كمحرك فعّال لاسترجاع الذاكرة طويلة المدى. في إطار MoC، يختار كل استعلام بشكل ديناميكي عددًا قليلاً من القطع المفيدة، إلى جانب نقاط مقررة إلزامية (مثل العنوان الوصفي، والنوافذ المحلية) للتركيز عليها، مع استخدام توجيه مسبب (Causal Routing) يمنع حدوث إغلاقات دائرية. ومع التوسع في حجم البيانات وتخفيف تدريجي لاختيار المسارات، تقوم النموذج بتخصيص الموارد الحسابية للماضي البارز، مما يحافظ على هويات الشخصيات، والإجراءات، والمشاهد على مدار دقائق من المحتوى. وتظهر الكفاءة كنتيجة ثانوية لعملية الاسترجاع (بمعدل تكامل تقريبي خطي)، ما يمكّن من التدريب العملي وإنشاء المحتوى، وظهور الذاكرة والاتساق في نطاق دقائق.