HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

VChain: سلسلة التفكير البصري للاستدلال في توليد الفيديو

Ziqi Huang Ning Yu Gordon Chen Haonan Qiu Paul Debevec Ziwei Liu

VChain: سلسلة التفكير البصري للاستدلال في توليد الفيديو

الملخص

تمكّن نماذج إنشاء الفيديو الحديثة من إنتاج لقطات سينمائية سلسة وجميلة بصريًا، لكنها غالبًا ما تواجه صعوبات في توليد الديناميكيات المعقدة مع سلسلة من النتائج المترابطة منطقيًا. ما زال نمذجة النتائج البصرية وانتقالات الحالة عبر الزمن تحديًا أساسيًا. على النقيض من ذلك، تُظهر النماذج الكبيرة للغة والمتعددة الوسائط (مثل GPT-4o) قدرات قوية في التفكير البصري وتوقع المستقبل. لسد الفجوة بين هذه القُدرات، نقدّم VChain، وهي إطار عمل جديد لسلسلة التفكير البصري أثناء الاستدلال (inference-time chain-of-visual-thought)، يُضخّ فيها إشارات التفكير البصري من النماذج المتعددة الوسائط إلى عملية إنشاء الفيديو. بشكل خاص، يحتوي VChain على مسار مخصص يستخدم النماذج الكبيرة المتعددة الوسائط لإنشاء مجموعة نادرة من الإطارات الحرجة (keyframes) الحاسمة كصور مجمّعة، والتي تُستخدم بعدها لتوجيه عملية التكييف النادرة أثناء الاستدلال لنموذج فيديو مُدرّب مسبقًا، وذلك فقط في تلك اللحظات الحرجة. يتميّز نهجنا بكفاءة التكييف، ويُضيف حملًا زائدًا ضئيلًا، ويتجنب الإشراف الكثيف. وقد أظهرت تجارب واسعة النطاق في سيناريوهات معقدة متعددة الخطوات أن VChain يُحسّن بشكل ملحوظ جودة الفيديوهات المُنتجة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VChain: سلسلة التفكير البصري للاستدلال في توليد الفيديو | الأوراق البحثية | HyperAI