VIRES: إعادة رسم الفيديو عن طريق التوليد الموجه بالرسم والنص

نقدم طريقة VIRES، وهي طريقة لرسم المثيلات الفيديوية باستخدام الإرشاد بالرسم التخطيطي والنص، مما يمكّن من رسم وإحلال وتوليد وإزالة المثيلات الفيديوية. تواجه الطرق الحالية صعوبات في الحفاظ على التجانس الزمني والتوافق الدقيق مع سلسلة الرسوم التخطيطية المقدمة. تستفيد VIRES من الأولويات الجينيراتيفية لنموذج النص إلى الفيديو للحفاظ على التجانس الزمني وإنتاج نتائج بصرية مرضية. نقترح استخدام شبكة Sequential ControlNet مع التوسيع الذاتي المعياري، والتي تُستخرج منها الأطر الهيكلية وتقTUREر القبض على تفاصيل الرسم التخطيطي ذات التباين العالي بشكل متكيف. كما نعزز هيكل المتغير التحويلي للانتشار (diffusion transformer) باهتمام الرسم التخطيطي لتفسير وحقن دلالات الرسم التخطيطي الدقيقة. يضمن مُشفِّر الإدراك بالرسم التخطيطي أن تكون النتائج المرسومة متوافقة مع سلسلة الرسوم التخطيطية المقدمة. بالإضافة إلى ذلك، نساهم بASET VireSet، وهو مجموعة بيانات تحتوي على شروح مفصلة مصممة خصيصًا لتدريب وتقييم طرق تحرير المثيلات الفيديوية. تظهر النتائج التجريبية فعالية VIRES، حيث تتفوق على أفضل الطرق الحالية في جودة الصورة، والتجانس الزمني، والتوافق مع الشروط، وتقييمات البشر. صفحة المشروع: هذا الرابط (this https URL)