لافيه: إنشاء فيديو عالي الجودة باستخدام نماذج التفتيت الخطي المتسلسلة

يهدف هذا العمل إلى تعلُّم نموذج توليدي نصّي-فيديو (T2V) عالي الجودة من خلال الاستفادة من نموذج نصّي-صورة (T2I) مُدرَّب مسبقًا كأساس. يُعدّ تحقيق كلاً من: أ) توليد مقاطع فيديو واقعية بصريًا ومتزامنة زمنيًا، وبالتوازي مع: ب) الحفاظ على الطبيعة الإبداعية القوية للنموذج T2I المُدرَّب مسبقًا، مهمةً مُ желَّة للغاية لكنها تُعدّ صعبة التحقيق. ولتحقيق هذا الهدف، نقترح "LaVie"، إطارًا متكاملًا لتوليد الفيديو يعمل على نماذج تمايزية لذات الفيديو المتسلسلة، ويشمل نموذجًا أساسيًا T2V، ونموذجًا للتبديل الزمني، ونموذجًا لتحسين دقة الفيديو. تتمثل رؤانا الأساسية في نقطتين: 1) نُظهر أن دمج انتباه ذاتي زمني بسيط، مدعومًا بترميز موقعي دوراني (rotary positional encoding)، يُكفي لالتقاط الترابطات الزمنية المتأصلة في بيانات الفيديو. 2) كما نُثبت أن عملية التدرُّب المُحسَّن المشترك بين الصورة والفيديو تلعب دورًا محوريًا في إنتاج نتائج عالية الجودة وإبداعية. ولتحسين أداء "LaVie"، نقدّم مجموعة بيانات فيديو شاملة ومتنوعة تُسمى "Vimeo25M"، وتتكوّن من 25 مليون زوج من النصوص والفيديوهات، وتُراعي الجودة والتنوع والجاذبية الجمالية. تُظهر التجارب الواسعة أن "LaVie" تحقق أداءً متقدّمًا على مستوى الحالة الحالية (state-of-the-art) من حيث الجودة الكمية والنوعية. علاوةً على ذلك، نُظهر مرونة النماذج المُدرَّبة مسبقًا لـ "LaVie" في تطبيقات متنوعة لتحرير فيديوهات طويلة، وتوليد فيديوهات مخصصة.