HyperAIHyperAI
منذ 16 أيام

فيديو بوئت: نموذج لغوي كبير للإنشاء الصوتي التلقائي بدون نموذج مسبق

Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang
فيديو بوئت: نموذج لغوي كبير للإنشاء الصوتي التلقائي بدون نموذج مسبق
الملخص

نقدّم نموذج VideoPoet، وهو نموذج لغوي قادر على توليد مقاطع فيديو عالية الجودة، بما يتوافق مع صوت متناسق، من مجموعة واسعة من الإشارات الشرطية. يعتمد VideoPoet على بنية معمارية مُشَفّرة فقط (decoder-only) من نوع Transformer، ويُعالج إدخالات متعددة الوسائط، بما في ذلك الصور، والفيديوهات، والنصوص، والصوت. تتبع عملية التدريب منهجية نماذج اللغة الكبيرة (LLMs)، وتشمل مرحلتين: التدريب المسبق والتكيف المخصص للمهام. أثناء التدريب المسبق، يدمج VideoPoet مجموعة من الأهداف التوليدية متعددة الوسائط ضمن إطار معماري توليدية تسلسلية (autoregressive Transformer). يُشكّل النموذج المُدرّب مسبقًا على أساس يمكن تكييفه لمهام متعددة لتوليد الفيديو. ونقدّم نتائج تجريبية تُظهر قدرات النموذج المتميزة في توليد الفيديو بدون تدريب مسبق (zero-shot)، مع التركيز بشكل خاص على قدرة VideoPoet على إنتاج حركات عالية الدقة. صفحة المشروع: http://sites.research.google/videopoet/

فيديو بوئت: نموذج لغوي كبير للإنشاء الصوتي التلقائي بدون نموذج مسبق | أحدث الأوراق البحثية | HyperAI