الملخص

نقدّم نموذج "فيناكِ" (Phenaki)، وهو نموذج قادر على إنشاء مقاطع فيديو واقعية بناءً على تسلسل من التعليمات النصية. يُعد إنشاء مقاطع الفيديو من النص تحديًا كبيرًا بسبب التكلفة الحاسوبية العالية، وندرة البيانات النصية-المرئية عالية الجودة، بالإضافة إلى تباين أطوال مقاطع الفيديو. لمعالجة هذه التحديات، نقدّم نموذجًا جديدًا لتعلم تمثيل الفيديو، حيث يقوم بضغط الفيديو إلى تمثيل صغير مكوّن من رموز منفصلة (tokens). ويستخدم هذا المُحَوِّل (tokenizer) انتباهًا سببيًا عبر الزمن، مما يمكّنه من التعامل مع مقاطع فيديو ذات أطوال متغيرة. ولإيجاد رموز الفيديو من النص، نستخدم نموذجًا مُتَحَوِّلًا مُغَمَّقًا ثنائي الاتجاه (bidirectional masked transformer) مُشَرَّطًا على رموز نصية مُعدّة مسبقًا. ثم تُحوَّل الرموز الناتجة من الفيديو إلى مقطع فيديو حقيقي من خلال عملية تفكيك الرموز (de-tokenization). ولحل مشكلة البيانات، نُظهِر كيف يمكن للتدريب المشترك على مجموعة كبيرة من أزواج الصور والنصوص، بالإضافة إلى عدد محدود من الأمثلة النصية-المرئية، أن يؤدي إلى تعميم أعمق مما هو متوفر في مجموعات بيانات الفيديو. مقارنةً بالطرق السابقة لإنشاء الفيديو، يمكن لنموذج "فيناكِ" إنتاج مقاطع فيديو بأي طول، مُشَرَّطة على تسلسل من التعليمات النصية (أي نص متغير زمنيًا أو قصة) في مجال مفتوح. إلى حد علمنا، هذه أول مرة يتم فيها دراسة إنشاء مقاطع فيديو من تعليمات نصية متغيرة زمنيًا. علاوةً على ذلك، مقارنةً بالأساليب القائمة على كل إطار على حدة (per-frame baselines)، فإن المُشَرَّح والمشفر (encoder-decoder) المقترح يحسب عدد رموز أقل لكل مقطع فيديو، مع تحقيق تمايز أفضل في البُعد المكاني والزمني.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

فيناكى: توليد فيديو بطول متغير من وصف نصي في مجال مفتوح

Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang Mohammad Taghi Saffar Santiago Castro Julius Kunze Dumitru Erhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

فيناكى: توليد فيديو بطول متغير من وصف نصي في مجال مفتوح

Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang Mohammad Taghi Saffar Santiago Castro Julius Kunze Dumitru Erhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

فيناكى: توليد فيديو بطول متغير من وصف نصي في مجال مفتوح

Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang Mohammad Taghi Saffar Santiago Castro Julius Kunze Dumitru Erhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters