Command Palette
Search for a command to run...

الملخص
نقدّم "LongLive"، وهي إطار عمل تلقائي تتابعي (AR) على مستوى الإطارات، مُصمم لاستخدامه في توليد مقاطع فيديو طويلة في الزمن الفعلي وتفاعليًا. يُشكّل توليد مقاطع الفيديو الطويلة تحديين رئيسيين: الكفاءة والجودة. إذ تُنتج نماذج التشتت (Diffusion) ونماذج التشتت القائمة على القسر (Diffusion-Forcing) مقاطع فيديو عالية الجودة، لكنها تعاني من ضعف الكفاءة بسبب استخدام الانتباه ثنائي الاتجاه (bidirectional attention). في المقابل، تدعم نماذج الانتباه السببي (causal attention) المبنية على النماذج التتابعيّة (AR) آلية تخزين ذاكرة مُكثفة (KV caching) لتسريع عملية الاستنتاج، لكنها غالبًا ما تُظهر انخفاضًا في الجودة عند معالجة مقاطع الفيديو الطويلة، نتيجة تحديات الذاكرة أثناء التدريب على مقاطع طويلة. بالإضافة إلى ذلك، فبالإضافة إلى التوليد القائم على المُدخلات الثابتة (prompt)، تُعدّ القدرات التفاعلية — مثل إدخال المُدخلات التفاعلية بأسلوب تدفقي (streaming prompt inputs) — أمرًا حاسمًا في إنشاء محتوى ديناميكي، حيث يمكن للمستخدمين توجيه السرد القصصي في الزمن الفعلي. وتُضاعف هذه المتطلبات التفاعلية من تعقيد النظام، خاصةً من حيث ضمان الاتساق البصري والاتساق المعنوي أثناء انتقالات المُدخلات. للتغلب على هذه التحديات، تُعتمد في LongLive تصميمًا تتابعيًا سببيًا على مستوى الإطارات، يدمج آلية إعادة تحميل ذاكرة التخزين (KV-recache) التي تُحدّث الحالات المُخزّنة ببيانات المُدخلات الجديدة، مما يُتيح انتقالات سلسة ومتماسكة. كما تُستخدم تقنية "التدريب الطويل التدفقي" (streaming long tuning)، التي تُمكّن من التدريب على مقاطع فيديو طويلة، وتحقيق التماسك بين مرحلة التدريب والاختبار (train-long-test-long). إلى جانب ذلك، تُطبّق آلية الانتباه بنافذة قصيرة (short window attention) مدعومة بنقطة امتصاص انتباه على مستوى الإطار (frame-level attention sink)، وتُعرف اختصارًا بـ "frame sink"، والتي تحافظ على الاتساق على مدى طويل، في حين تُعزز من سرعة التوليد. بفضل هذه التصاميم الأساسية، تُعدّل LongLive نموذجًا صغيرًا بحجم 1.3 مليار معلمة (1.3B-parameter) ليعمل على توليد مقاطع فيديو طويلة تصل إلى دقيقة واحدة، وذلك خلال 32 يومًا فقط من استخدام وحدات معالجة الرسوميات (GPU). وفي مرحلة الاستنتاج، تُحافظ LongLive على معدل 20.7 إطارًا في الثانية (FPS) على وحدة معالجة واحدة من نوع NVIDIA H100، وتُظهر أداءً قويًا في اختبار VBench على مقاطع الفيديو القصيرة والطويلة على حد سواء. كما تدعم LongLive إنشاء مقاطع فيديو تصل إلى 240 ثانية على وحدة H100 واحدة، وتُقدّم أيضًا دعمًا لاستنتاج مُكمّل بـ INT8 (كمّية التقدير المُقلّلة)، مع فقدان ضئيل جدًا في الجودة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.