منذ 5 أشهر

الملخص

يُعد إنشاء الفيديوهات الطويلة مشكلة أساسية تتعلق بالذاكرة في السياقات الطويلة: إذ يجب على النماذج الاحتفاظ بالحوادث البارزة واسترجاعها عبر فترات زمنية طويلة دون أن تتدهور أو تتشتت. ومع ذلك، فإن توسيع نماذج التحويل (Transformer) المبنية على التشتت (Diffusion) لإنجاز إنشاء فيديوهات ذات سياقات طويلة يواجه قيودًا جوهرية ناتجة عن التكلفة التربيعية لآلية الانتباه الذاتي، مما يجعل الذاكرة والحساب غير قابلين للحل، وصعوبة التحسين بالنسبة للتسلسلات الطويلة. نعيد صياغة مسألة إنشاء الفيديوهات ذات السياقات الطويلة كمهمة داخلية لاسترجاع المعلومات، ونقترح وحدة بسيطة قابلة للتعلم لاختيار الانتباه النادرة، تُسمى "مزيج السياقات" (Mixture of Contexts - MoC)، كمحرك فعّال لاسترجاع الذاكرة طويلة المدى. في إطار MoC، يختار كل استعلام بشكل ديناميكي عددًا قليلاً من القطع المفيدة، إلى جانب نقاط مقررة إلزامية (مثل العنوان الوصفي، والنوافذ المحلية) للتركيز عليها، مع استخدام توجيه مسبب (Causal Routing) يمنع حدوث إغلاقات دائرية. ومع التوسع في حجم البيانات وتخفيف تدريجي لاختيار المسارات، تقوم النموذج بتخصيص الموارد الحسابية للماضي البارز، مما يحافظ على هويات الشخصيات، والإجراءات، والمشاهد على مدار دقائق من المحتوى. وتظهر الكفاءة كنتيجة ثانوية لعملية الاسترجاع (بمعدل تكامل تقريبي خطي)، ما يمكّن من التدريب العملي وإنشاء المحتوى، وظهور الذاكرة والاتساق في نطاق دقائق.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار