HyperAIHyperAI

Command Palette

Search for a command to run...

فيديو بوئت: نموذج لغوي كبير للإنشاء الصوتي التلقائي بدون نموذج مسبق

الملخص

نقدّم نموذج VideoPoet، وهو نموذج لغوي قادر على توليد مقاطع فيديو عالية الجودة، بما يتوافق مع صوت متناسق، من مجموعة واسعة من الإشارات الشرطية. يعتمد VideoPoet على بنية معمارية مُشَفّرة فقط (decoder-only) من نوع Transformer، ويُعالج إدخالات متعددة الوسائط، بما في ذلك الصور، والفيديوهات، والنصوص، والصوت. تتبع عملية التدريب منهجية نماذج اللغة الكبيرة (LLMs)، وتشمل مرحلتين: التدريب المسبق والتكيف المخصص للمهام. أثناء التدريب المسبق، يدمج VideoPoet مجموعة من الأهداف التوليدية متعددة الوسائط ضمن إطار معماري توليدية تسلسلية (autoregressive Transformer). يُشكّل النموذج المُدرّب مسبقًا على أساس يمكن تكييفه لمهام متعددة لتوليد الفيديو. ونقدّم نتائج تجريبية تُظهر قدرات النموذج المتميزة في توليد الفيديو بدون تدريب مسبق (zero-shot)، مع التركيز بشكل خاص على قدرة VideoPoet على إنتاج حركات عالية الدقة. صفحة المشروع: http://sites.research.google/videopoet/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
فيديو بوئت: نموذج لغوي كبير للإنشاء الصوتي التلقائي بدون نموذج مسبق | مستندات | HyperAI