HyperAIHyperAI

Command Palette

Search for a command to run...

لافيه: إنشاء فيديو عالي الجودة باستخدام نماذج التفتيت الخطي المتسلسلة

الملخص

يهدف هذا العمل إلى تعلُّم نموذج توليدي نصّي-فيديو (T2V) عالي الجودة من خلال الاستفادة من نموذج نصّي-صورة (T2I) مُدرَّب مسبقًا كأساس. يُعدّ تحقيق كلاً من: أ) توليد مقاطع فيديو واقعية بصريًا ومتزامنة زمنيًا، وبالتوازي مع: ب) الحفاظ على الطبيعة الإبداعية القوية للنموذج T2I المُدرَّب مسبقًا، مهمةً مُ желَّة للغاية لكنها تُعدّ صعبة التحقيق. ولتحقيق هذا الهدف، نقترح "LaVie"، إطارًا متكاملًا لتوليد الفيديو يعمل على نماذج تمايزية لذات الفيديو المتسلسلة، ويشمل نموذجًا أساسيًا T2V، ونموذجًا للتبديل الزمني، ونموذجًا لتحسين دقة الفيديو. تتمثل رؤانا الأساسية في نقطتين: 1) نُظهر أن دمج انتباه ذاتي زمني بسيط، مدعومًا بترميز موقعي دوراني (rotary positional encoding)، يُكفي لالتقاط الترابطات الزمنية المتأصلة في بيانات الفيديو. 2) كما نُثبت أن عملية التدرُّب المُحسَّن المشترك بين الصورة والفيديو تلعب دورًا محوريًا في إنتاج نتائج عالية الجودة وإبداعية. ولتحسين أداء "LaVie"، نقدّم مجموعة بيانات فيديو شاملة ومتنوعة تُسمى "Vimeo25M"، وتتكوّن من 25 مليون زوج من النصوص والفيديوهات، وتُراعي الجودة والتنوع والجاذبية الجمالية. تُظهر التجارب الواسعة أن "LaVie" تحقق أداءً متقدّمًا على مستوى الحالة الحالية (state-of-the-art) من حيث الجودة الكمية والنوعية. علاوةً على ذلك، نُظهر مرونة النماذج المُدرَّبة مسبقًا لـ "LaVie" في تطبيقات متنوعة لتحرير فيديوهات طويلة، وتوليد فيديوهات مخصصة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
لافيه: إنشاء فيديو عالي الجودة باستخدام نماذج التفتيت الخطي المتسلسلة | مستندات | HyperAI