زمن الحركة: توليد فيديو متحكم به حركي دون تدريب عبر إزالة الضوضاء ذات الساعة المزدوجة
Assaf Singer Noam Rotstein Amir Mann Ron Kimmel Or Litany

الملخص
يمكن لتقنيات توليد الفيديو القائمة على الانتشار (Diffusion-based video generation) إنتاج مقاطع فيديو واقعية، لكن الطرق الحالية القائمة على الصور أو النصوص لا تُقدِّم تحكمًا دقيقًا في الحركة. وغالبًا ما تتطلب الطرق السابقة لتوليد الفيديو المُشَرَّعَة حسب الحركة تدريبًا دقيقًا مخصصًا للنموذج، وهو ما يُعد مكلفًا من حيث الحوسبة ويفرض قيودًا كبيرة. نحن نقدم إطار عمل جديد يُسمى "الوقت إلى الحركة" (Time-to-Move أو TTM)، وهو إطار عمل غير مُدرَّب، قابل للتركيب مباشرة، لتحسين توليد الفيديو مع التحكم في الحركة والشكل باستخدام نماذج الانتشار من الصورة إلى الفيديو (I2V diffusion models). يستند فهمنا الأساسي إلى استخدام رسوم متحركة خشنة تم الحصول عليها عبر عمليات تلاعب سهلة للمستخدم، مثل التقليم والسحب (cut-and-drag) أو إعادة العرض بناءً على العمق (depth-based reprojection). مستوحى من استخدام SDEdit لمؤشرات التخطيط الخشنة في تحرير الصور، نُعامل هذه الرسوم المتحركة الخشنة كمؤشرات خشنة للحركة، ونُعدِّل الآلية لتناسب بيئة الفيديو. ونُبقي على الشكل (الملامح) من خلال التحفيز الصوتي، ونُقدِّم آلية "إزالة الضوضاء بساعتين" (dual-clock denoising)، وهي استراتيجية تعتمد على المنطقة، تُطبِّق تزامنًا قويًا في المناطق المحددة حسب الحركة، بينما تُبقي مرونة في الأماكن الأخرى، مما يوازن بين الالتزام بنية المستخدم وطبيعة الحركة الطبيعية.تُعد هذه التعديلات الخفيفة على عملية العينة لا تتطلب تدريبًا إضافيًا ولا تُضيف تكاليف تشغيل، وتعمل مع أي نموذج أساسي. أظهرت التجارب الواسعة على معايير حركة الكائنات وحركة الكاميرا أن TTM تُنافس أو تفوق النماذج الحالية القائمة على التدريب من حيث الواقعية والتحكم في الحركة. علاوةً على ذلك، يُقدِّم TTM قدرة فريدة: التحكم الدقيق في الشكل من خلال التحفيز على مستوى البكسل، ما يتجاوز القيود المفروضة على التحفيز النصي وحده. لمشاهدة أمثلة فيديو وتنزيل الشيفرة، يُرجى زيارة صفحة المشروع: https://time-to-move.github.io/.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.