HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المعاكس التلقائي للشبكات العصبية للإنتاج الفيديوي التفاعلي في الوقت الحقيقي

Shanchuan Lin Ceyuan Yang Hao He Jianwen Jiang Yuxi Ren Xin Xia Yang Zhao Xuefeng Xiao Lu Jiang

الملخص

النماذج الحالية لتكوين الفيديو على نطاق واسع هي مكثفة من الناحية الحسابية، مما يمنع استخدامها في التطبيقات الزمنية الحقيقية والتفاعلية. في هذا العمل، نقترح التدريب المعاكس التلقائي (AAPT) لتحويل نموذج تفتيت الفيديو الخفي المُدرب مسبقًا إلى مولد فيديو زمني حقيقي وتفاعلي. يقوم نموذجنا بتوليد إطار خفي واحد تلو الآخر باستخدام تقييم دالة عصبية واحدة فقط (1NFE). يمكن للنموذج بث النتيجة للمستخدم بشكل فوري واستقبال استجابات تفاعلية كضوابط لتوليد الإطار الخفي التالي. على عكس الأساليب الموجودة، يستكشف طرحتنا التدريب المعادي كنمط فعال للتوليد التلقائي. هذا ليس فقط يسمح لنا بتصميم هندسة أكثر كفاءة للتوليد خطوة واحدة مع الاستفادة الكاملة من ذاكرة ال-cache KV، بل يمكّن أيضًا من تدريب النموذج بطريقة القسر الطالبي التي ثبت أنها فعالة في تقليل تراكم الأخطاء أثناء تكوين الفيديوهات الطويلة. أظهرت تجاربنا أن نموذجنا البالغ 8 مليار معلمة يحقق تكوين فيديو متواصل بمعدل 24 إطارًا في الثانية بدقة 736x416 على بطاقة H100 واحدة، أو بدقة 1280x720 على ثماني بطاقات H100 لمدة تصل إلى دقيقة كاملة (1440 إطارًا). يمكنك زيارة موقع بحثنا على الرابط https://seaweed-apt.com/2


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp