برنامج تعليمي عبر الإنترنت: اقترح فريق شي بوكسين بجامعة بكين والحوسبة البايزية طريقة إعادة رسم مثيل الفيديو VIRES، مع مؤشرات أداء متعددة تصل إلى SOTA

هل يمكن أيضًا تعديل مقاطع الفيديو بالفوتوشوب؟
كما نعلم جميعًا، يُعدّ تحرير الفيديو أمرًا صعبًا للغاية. إذا كنت ترغب في تعديل أو استبدال الموضوع، أو تغيير المشهد، أو اللون، أو إزالة كائن،وهذا يعني في كثير من الأحيان التعليق اليدوي، ورسم الأقنعة، وتصنيف الألوان الدقيق لعدد لا يحصى من الإطارات.حتى فرق ما بعد الإنتاج ذات الخبرة تجد صعوبة في الحفاظ على الاتساق الزمني في تحرير المحتوى في المشاهد المعقدة. في السنوات الأخيرة، ومع التطور السريع للذكاء الاصطناعي التوليدي، ظهرت تدريجيًا وظائف مثل "الحذف بنقرة واحدة" في برامج التحرير المختلفة، مما أتاح للناس رؤية الإمكانات الهائلة للذكاء الاصطناعي في تحرير الفيديو.
في الواقع، في التطبيقات العملية، بالإضافة إلى وظيفة الحذف الشاملة، غالبًا ما تكون الوظائف الأكثر استخدامًا وصعوبة هي استبدال العناصر وإضافتها، مما يتطلب دقة أكبر في التعرف على الأهداف، وتجزئة الصورة، وإنشاء الفيديو. ومع ذلك، لا تزال أساليب الذكاء الاصطناعي الحالية تواجه تحديات في التعامل مع مهام إعادة رسم الفيديو في المشاهد المعقدة. على سبيل المثال،إن العديد من طرق التصوير الحالية معرضة للتسبب في وميض الشاشة عند معالجة إطارات الفيديو المستمرة؛ بالنسبة للمشاهد ذات الخلفيات المعقدة أو الأهداف المتعددة، قد يحدث عدم محاذاة أو عدم وضوح أو انحراف دلالي.
ردًا على ذلك، تعاون مختبر ذكاء الكاميرا بجامعة بكين (فريق شي بوكسين) مع فريق الحوسبة البايزية OpenBayes والأستاذ المشارك لي سي من مختبر التعرف على الأنماط في كلية الذكاء الاصطناعي بجامعة بكين للبريد والاتصالات.وقد اقترحوا بشكل مشترك نموذجًا لطريقة إعادة رسم الفيديو VIRES التي تجمع بين الرسم التخطيطي والتوجيه النصي.يدعم عمليات التحرير المتعددة مثل إعادة الرسم والاستبدال والتوليد وإزالة موضوع الفيديو.
تستخدم هذه الطريقة المعرفة المسبقة بنموذج تحويل النص إلى فيديو لضمان الاتساق الزمني، وتقترح أيضًا شبكة تحكم تسلسلية مزودة بآلية تحجيم تكيفية موحدة، يمكنها استخراج المخطط الهيكلي بفعالية والتقاط تفاصيل الرسومات عالية التباين بشكل تكيفي. علاوة على ذلك، أدخل فريق البحث آلية انتباه للرسومات في هيكل محول الانتشار (DiT) لتفسير دلالات الرسومات الدقيقة وحقنها. تُظهر النتائج التجريبية أنيتفوق VIRES على نماذج SOTA الحالية في العديد من الجوانب، بما في ذلك جودة الفيديو، والتناسق الزمني، والمحاذاة الشرطية، وتقييمات المستخدم.

البحث ذو الصلة يحمل عنوان "VIRES: إعادة رسم مثيل الفيديو عبر إنشاء رسم تخطيطي ونص موجه" وتم اختياره لـ CVPR 2025.
حاليًا، تم إطلاق "VIRES: إعادة رسم الفيديو ثنائي التوجيه للرسم والنص" على قسم الدروس التعليمية بموقع HyperAI الرسمي (hyper.ai). بنقرة واحدة، يمكنك تجربة ميزات تحرير الفيديو عالية الجودة عبر الإنترنت. على سبيل المثال، أضاف المطور كلب كورجي يركض في الثلج الخارجي، وهو واقعي تمامًا ولا يُظهر أي تمرد ⬇️
رابط البرنامج التعليمي:https://go.hyper.ai/49koQ
أعددنا أيضًا مزايا مفاجئة للمستخدمين الجدد المسجلين. استخدم رمز الدعوة "VIRES" للتسجيل في منصة OpenBayes.يمكنك الحصول على 4 ساعات من الاستخدام المجاني لـ RTX A6000 (المورد صالح لمدة شهر واحد).الكمية محدودة، الأولوية لمن يأتي أولاً!
تشغيل تجريبي
1. بعد الدخول إلى الصفحة الرئيسية لـ hyper.ai، حدد صفحة "البرامج التعليمية"، ثم حدد "VIRES: Video Redrawing with Sketch and Text Dual Guide"، ثم انقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت".


2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

٣. اختر صورتي "NVIDIA RTX A6000" و"PyTorch". توفر منصة OpenBayes أربع طرق دفع. يمكنك اختيار "الدفع الفوري" أو "يومي/أسبوعي/شهري" حسب احتياجاتك. انقر على "متابعة". يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على ٤ ساعات من RTX 4090 + ٥ ساعات من وقت فراغ المعالج!
رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):
https://openbayes.com/console/signup?r=Ada0322_NR0n


4. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي دقيقتين. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق سهم الانتقال بجوار "عنوان API" للانتقال إلى صفحة العرض التوضيحي. نظرًا لأن النموذج كبير الحجم، يستغرق عرض واجهة WebUI حوالي 3 دقائق، وإلا فسيتم عرض "البوابة سيئة". يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.

عرض التأثير
انقر على عنوان واجهة برمجة التطبيقات لتجربة النموذج مباشرةً، كما هو موضح في الشكل أدناه. لقد أعددنا لك أمثلة متعددة في البرنامج التعليمي، مرحبًا بك في التجربة!

باستخدام "إنشاء مثيل مخصص" كمثال، أضاف المؤلف كلب كورجي يركض في الثلج الخارجي، وهو يشبه الحياة ولا يوجد لديه إحساس بالعصيان!
*الفيديو الأصلي:
* توليد التأثير:
* اِسْتَدْعَى:
يُظهر الفيديو مشهدًا رائعًا لكلب كورجي يركض بفرحٍ جيئةً وذهابًا في حديقة ثلجية. تُزيّن الحديقة الأشجار وملعبٌ في الخلفية، مُضفيةً أجواءً شتويةً خلابة. يركض الكورجي، بفرائه البرتقالي والأبيض وعينيه المعبّرتين، مرارًا وتكرارًا نحو الكاميرا وبعيدًا عنها، رافعًا الثلج بمخالبه، مُظهرًا تصرفًا مرحًا. يُصوّر الفيديو حركات الكورجي بتفاصيلها، مُركّزًا على عينيه البراقتين، وأرجله العضلية، وقوامه الرشيق وهو يمرح في الثلج. من المُرجّح أن مُنشئ الفيديو أراد مشاركة لحظةٍ مؤثرةٍ وجذابةٍ بصريًا تُبرز فرحة وحيوية حيوانٍ أليفٍ محبوبٍ في أجواءٍ ثلجيةٍ جميلة.
ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!
رابط البرنامج التعليمي:https://go.hyper.ai/49koQ