HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

مزيج من السياقات لإنشاء مقاطع فيديو طويلة

Shengqu Cai Ceyuan Yang Lvmin Zhang Yuwei Guo Junfei Xiao et al

مزيج من السياقات لإنشاء مقاطع فيديو طويلة

الملخص

يُعد إنشاء الفيديوهات الطويلة مشكلة أساسية تتعلق بالذاكرة في السياقات الطويلة: إذ يجب على النماذج الاحتفاظ بالحوادث البارزة واسترجاعها عبر فترات زمنية طويلة دون أن تتدهور أو تتشتت. ومع ذلك، فإن توسيع نماذج التحويل (Transformer) المبنية على التشتت (Diffusion) لإنجاز إنشاء فيديوهات ذات سياقات طويلة يواجه قيودًا جوهرية ناتجة عن التكلفة التربيعية لآلية الانتباه الذاتي، مما يجعل الذاكرة والحساب غير قابلين للحل، وصعوبة التحسين بالنسبة للتسلسلات الطويلة. نعيد صياغة مسألة إنشاء الفيديوهات ذات السياقات الطويلة كمهمة داخلية لاسترجاع المعلومات، ونقترح وحدة بسيطة قابلة للتعلم لاختيار الانتباه النادرة، تُسمى "مزيج السياقات" (Mixture of Contexts - MoC)، كمحرك فعّال لاسترجاع الذاكرة طويلة المدى. في إطار MoC، يختار كل استعلام بشكل ديناميكي عددًا قليلاً من القطع المفيدة، إلى جانب نقاط مقررة إلزامية (مثل العنوان الوصفي، والنوافذ المحلية) للتركيز عليها، مع استخدام توجيه مسبب (Causal Routing) يمنع حدوث إغلاقات دائرية. ومع التوسع في حجم البيانات وتخفيف تدريجي لاختيار المسارات، تقوم النموذج بتخصيص الموارد الحسابية للماضي البارز، مما يحافظ على هويات الشخصيات، والإجراءات، والمشاهد على مدار دقائق من المحتوى. وتظهر الكفاءة كنتيجة ثانوية لعملية الاسترجاع (بمعدل تكامل تقريبي خطي)، ما يمكّن من التدريب العملي وإنشاء المحتوى، وظهور الذاكرة والاتساق في نطاق دقائق.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مزيج من السياقات لإنشاء مقاطع فيديو طويلة | الأوراق البحثية | HyperAI