HyperAIHyperAI
منذ 16 أيام

مُطَابِقَةُ المُتَسَمِّيَاتِ: توليد فيديو عالي الدقة باستخدام نماذج التفتيت في الفضاء المُتَسَمِّي

Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis
مُطَابِقَةُ المُتَسَمِّيَاتِ: توليد فيديو عالي الدقة باستخدام نماذج التفتيت في الفضاء المُتَسَمِّي
الملخص

تمكّن نماذج التشتت المُخفيّة (LDMs) من توليد صور عالية الجودة مع تجنّب متطلبات الحوسبة المفرطة من خلال تدريب نموذج تشتت في فضاء مُختزل ذو أبعاد منخفضة. وفي هذا العمل، نطبّق نموذج LDM على توليد مقاطع فيديو عالية الدقة، وهي مهمة تتطلب موارد حاسوبية كبيرة بشكل خاص. نبدأ بتدريب نموذج LDM مسبقًا على الصور فقط؛ ثم نحوّل مولّد الصور إلى مولّد فيديو من خلال إدخال بُعد زمني إلى نموذج التشتت في الفضاء المُخفي، مع التدريب الدقيق على تسلسلات الصور المشفرة، أي مقاطع الفيديو. وبالمثل، نُجري تزامنًا زمنيًا على معزّزات التوسيع في نموذج التشتت، مما يحوّلها إلى نماذج لتحسين دقة الفيديو مع الحفاظ على الاتساق الزمني. ونركّز على تطبيقيْن واقعيين مهمين: محاكاة بيانات القيادة في البيئة الطبيعية، وإنشاء محتوى إبداعي باستخدام نمذجة النص إلى فيديو. وبشكل خاص، نُحقّق أداءً متفوّقًا على مستوى الحالة الحالية عند تقييم نموذج الفيديو LDM على مقاطع فيديو حقيقية للقيادة بدقة 512 × 1024. علاوةً على ذلك، يمكن لنهجنا الاستفادة بسهولة من نماذج LDM الصور المُدرّبة مسبقًا المتوفرة جاهزة، حيث نحتاج فقط إلى تدريب نموذج تزامن زمني في هذه الحالة. وبذلك، نحوّل نموذج Stable Diffusion، وهو نموذج LDM مُتقدم ومُتاح للعامة للتحويل من نص إلى صورة، إلى نموذج فعّال وتعبيري للتحويل من نص إلى فيديو بدرجة دقة تصل إلى 1280 × 2048. ونُظهر أن الطبقات الزمنية التي تم تدريبها بهذه الطريقة تُعمّم على نماذج LDM للتحويل من نص إلى صورة مُعدّلة دقيقًا بطرق مختلفة. وباستغلال هذه الخاصية، نُقدّم أول نتائج للتحويل من نص إلى فيديو مخصص، مما يفتح آفاقًا مثيرة لمستقبل إنشاء المحتوى. صفحة المشروع: https://research.nvidia.com/labs/toronto-ai/VideoLDM/

مُطَابِقَةُ المُتَسَمِّيَاتِ: توليد فيديو عالي الدقة باستخدام نماذج التفتيت في الفضاء المُتَسَمِّي | أحدث الأوراق البحثية | HyperAI