فيديو بوئت: نموذج لغوي كبير للإنشاء الصوتي التلقائي بدون نموذج مسبق

نقدّم نموذج VideoPoet، وهو نموذج لغوي قادر على توليد مقاطع فيديو عالية الجودة، بما يتوافق مع صوت متناسق، من مجموعة واسعة من الإشارات الشرطية. يعتمد VideoPoet على بنية معمارية مُشَفّرة فقط (decoder-only) من نوع Transformer، ويُعالج إدخالات متعددة الوسائط، بما في ذلك الصور، والفيديوهات، والنصوص، والصوت. تتبع عملية التدريب منهجية نماذج اللغة الكبيرة (LLMs)، وتشمل مرحلتين: التدريب المسبق والتكيف المخصص للمهام. أثناء التدريب المسبق، يدمج VideoPoet مجموعة من الأهداف التوليدية متعددة الوسائط ضمن إطار معماري توليدية تسلسلية (autoregressive Transformer). يُشكّل النموذج المُدرّب مسبقًا على أساس يمكن تكييفه لمهام متعددة لتوليد الفيديو. ونقدّم نتائج تجريبية تُظهر قدرات النموذج المتميزة في توليد الفيديو بدون تدريب مسبق (zero-shot)، مع التركيز بشكل خاص على قدرة VideoPoet على إنتاج حركات عالية الدقة. صفحة المشروع: http://sites.research.google/videopoet/