منذ 6 أشهر

الملخص

تمكّن نماذج التشتت المُخفيّة (LDMs) من توليد صور عالية الجودة مع تجنّب متطلبات الحوسبة المفرطة من خلال تدريب نموذج تشتت في فضاء مُختزل ذو أبعاد منخفضة. وفي هذا العمل، نطبّق نموذج LDM على توليد مقاطع فيديو عالية الدقة، وهي مهمة تتطلب موارد حاسوبية كبيرة بشكل خاص. نبدأ بتدريب نموذج LDM مسبقًا على الصور فقط؛ ثم نحوّل مولّد الصور إلى مولّد فيديو من خلال إدخال بُعد زمني إلى نموذج التشتت في الفضاء المُخفي، مع التدريب الدقيق على تسلسلات الصور المشفرة، أي مقاطع الفيديو. وبالمثل، نُجري تزامنًا زمنيًا على معزّزات التوسيع في نموذج التشتت، مما يحوّلها إلى نماذج لتحسين دقة الفيديو مع الحفاظ على الاتساق الزمني. ونركّز على تطبيقيْن واقعيين مهمين: محاكاة بيانات القيادة في البيئة الطبيعية، وإنشاء محتوى إبداعي باستخدام نمذجة النص إلى فيديو. وبشكل خاص، نُحقّق أداءً متفوّقًا على مستوى الحالة الحالية عند تقييم نموذج الفيديو LDM على مقاطع فيديو حقيقية للقيادة بدقة 512 × 1024. علاوةً على ذلك، يمكن لنهجنا الاستفادة بسهولة من نماذج LDM الصور المُدرّبة مسبقًا المتوفرة جاهزة، حيث نحتاج فقط إلى تدريب نموذج تزامن زمني في هذه الحالة. وبذلك، نحوّل نموذج Stable Diffusion، وهو نموذج LDM مُتقدم ومُتاح للعامة للتحويل من نص إلى صورة، إلى نموذج فعّال وتعبيري للتحويل من نص إلى فيديو بدرجة دقة تصل إلى 1280 × 2048. ونُظهر أن الطبقات الزمنية التي تم تدريبها بهذه الطريقة تُعمّم على نماذج LDM للتحويل من نص إلى صورة مُعدّلة دقيقًا بطرق مختلفة. وباستغلال هذه الخاصية، نُقدّم أول نتائج للتحويل من نص إلى فيديو مخصص، مما يفتح آفاقًا مثيرة لمستقبل إنشاء المحتوى. صفحة المشروع: https://research.nvidia.com/labs/toronto-ai/VideoLDM/

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Andreas Blattmann Robin Rombach Huan Ling Tim Dockhorn Seung Wook Kim Sanja Fidler Karsten Kreis

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Andreas Blattmann Robin Rombach Huan Ling Tim Dockhorn Seung Wook Kim Sanja Fidler Karsten Kreis

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Andreas Blattmann Robin Rombach Huan Ling Tim Dockhorn Seung Wook Kim Sanja Fidler Karsten Kreis

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مُطَابِقَةُ المُتَسَمِّيَاتِ: توليد فيديو عالي الدقة باستخدام نماذج التفتيت في الفضاء المُتَسَمِّي

Andreas Blattmann Robin Rombach Huan Ling Tim Dockhorn Seung Wook Kim Sanja Fidler Karsten Kreis

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مُطَابِقَةُ المُتَسَمِّيَاتِ: توليد فيديو عالي الدقة باستخدام نماذج التفتيت في الفضاء المُتَسَمِّي

Andreas Blattmann Robin Rombach Huan Ling Tim Dockhorn Seung Wook Kim Sanja Fidler Karsten Kreis

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مُطَابِقَةُ المُتَسَمِّيَاتِ: توليد فيديو عالي الدقة باستخدام نماذج التفتيت في الفضاء المُتَسَمِّي

Andreas Blattmann Robin Rombach Huan Ling Tim Dockhorn Seung Wook Kim Sanja Fidler Karsten Kreis

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters