Command Palette
Search for a command to run...
التدريب المعاكس التلقائي للشبكات العصبية للإنتاج الفيديوي التفاعلي في الوقت الحقيقي
التدريب المعاكس التلقائي للشبكات العصبية للإنتاج الفيديوي التفاعلي في الوقت الحقيقي
Shanchuan Lin Ceyuan Yang Hao He Jianwen Jiang Yuxi Ren Xin Xia Yang Zhao Xuefeng Xiao Lu Jiang
الملخص
النماذج الحالية لتكوين الفيديو على نطاق واسع هي مكثفة من الناحية الحسابية، مما يمنع استخدامها في التطبيقات الزمنية الحقيقية والتفاعلية. في هذا العمل، نقترح التدريب المعاكس التلقائي (AAPT) لتحويل نموذج تفتيت الفيديو الخفي المُدرب مسبقًا إلى مولد فيديو زمني حقيقي وتفاعلي. يقوم نموذجنا بتوليد إطار خفي واحد تلو الآخر باستخدام تقييم دالة عصبية واحدة فقط (1NFE). يمكن للنموذج بث النتيجة للمستخدم بشكل فوري واستقبال استجابات تفاعلية كضوابط لتوليد الإطار الخفي التالي. على عكس الأساليب الموجودة، يستكشف طرحتنا التدريب المعادي كنمط فعال للتوليد التلقائي. هذا ليس فقط يسمح لنا بتصميم هندسة أكثر كفاءة للتوليد خطوة واحدة مع الاستفادة الكاملة من ذاكرة ال-cache KV، بل يمكّن أيضًا من تدريب النموذج بطريقة القسر الطالبي التي ثبت أنها فعالة في تقليل تراكم الأخطاء أثناء تكوين الفيديوهات الطويلة. أظهرت تجاربنا أن نموذجنا البالغ 8 مليار معلمة يحقق تكوين فيديو متواصل بمعدل 24 إطارًا في الثانية بدقة 736x416 على بطاقة H100 واحدة، أو بدقة 1280x720 على ثماني بطاقات H100 لمدة تصل إلى دقيقة كاملة (1440 إطارًا). يمكنك زيارة موقع بحثنا على الرابط https://seaweed-apt.com/2