HyperAIHyperAI
منذ 7 أيام

فيناكى: توليد فيديو بطول متغير من وصف نصي في مجال مفتوح

Ruben Villegas, Mohammad Babaeizadeh, Pieter-Jan Kindermans, Hernan Moraldo, Han Zhang, Mohammad Taghi Saffar, Santiago Castro, Julius Kunze, Dumitru Erhan
فيناكى: توليد فيديو بطول متغير من وصف نصي في مجال مفتوح
الملخص

نقدّم نموذج "فيناكِ" (Phenaki)، وهو نموذج قادر على إنشاء مقاطع فيديو واقعية بناءً على تسلسل من التعليمات النصية. يُعد إنشاء مقاطع الفيديو من النص تحديًا كبيرًا بسبب التكلفة الحاسوبية العالية، وندرة البيانات النصية-المرئية عالية الجودة، بالإضافة إلى تباين أطوال مقاطع الفيديو. لمعالجة هذه التحديات، نقدّم نموذجًا جديدًا لتعلم تمثيل الفيديو، حيث يقوم بضغط الفيديو إلى تمثيل صغير مكوّن من رموز منفصلة (tokens). ويستخدم هذا المُحَوِّل (tokenizer) انتباهًا سببيًا عبر الزمن، مما يمكّنه من التعامل مع مقاطع فيديو ذات أطوال متغيرة. ولإيجاد رموز الفيديو من النص، نستخدم نموذجًا مُتَحَوِّلًا مُغَمَّقًا ثنائي الاتجاه (bidirectional masked transformer) مُشَرَّطًا على رموز نصية مُعدّة مسبقًا. ثم تُحوَّل الرموز الناتجة من الفيديو إلى مقطع فيديو حقيقي من خلال عملية تفكيك الرموز (de-tokenization). ولحل مشكلة البيانات، نُظهِر كيف يمكن للتدريب المشترك على مجموعة كبيرة من أزواج الصور والنصوص، بالإضافة إلى عدد محدود من الأمثلة النصية-المرئية، أن يؤدي إلى تعميم أعمق مما هو متوفر في مجموعات بيانات الفيديو. مقارنةً بالطرق السابقة لإنشاء الفيديو، يمكن لنموذج "فيناكِ" إنتاج مقاطع فيديو بأي طول، مُشَرَّطة على تسلسل من التعليمات النصية (أي نص متغير زمنيًا أو قصة) في مجال مفتوح. إلى حد علمنا، هذه أول مرة يتم فيها دراسة إنشاء مقاطع فيديو من تعليمات نصية متغيرة زمنيًا. علاوةً على ذلك، مقارنةً بالأساليب القائمة على كل إطار على حدة (per-frame baselines)، فإن المُشَرَّح والمشفر (encoder-decoder) المقترح يحسب عدد رموز أقل لكل مقطع فيديو، مع تحقيق تمايز أفضل في البُعد المكاني والزمني.

فيناكى: توليد فيديو بطول متغير من وصف نصي في مجال مفتوح | أحدث الأوراق البحثية | HyperAI