تقنية جديدة من غوغل ديبماインド وآخرين تتيح التحكم الدقيق في إنتاج الفيديو باستخدام حركات موجهة
ملخص بحث "Motion Prompting" المقدم في مؤتمر CVPR 2025 النقاط الرئيسية: الباحثون: - باحثون من Google DeepMind، جامعة ميشيجان، وجامعة براون. التقنية الجديدة: - طور الباحثون تقنية جديدة تُعرف بـ "Motion Prompting"، وهي تتيح السيطرة على توليد الفيديو باستخدام مسارات حركة محددة. - تعتمد هذه التقنية على "الحث الحركي" (Motion Prompt)، وهو تمثيل مرناً لحركة النقاط في الفضاء والوقت، يمكن أن يكون نادرًا أو كثيفًا. الابتكار الرئيسي: - "توسيع الحث الحركي" (Motion Prompt Expansion)، الذي يترجم الطلبات المستخدمة عالية المستوى، مثل تحريك الفأرة، إلى تعليمات حركة مفصلة للنموذج المدرب. مجالات التطبيق: - تحرير الصور التفاعلية: يمكن للمستخدمين تحريك أجزاء من الصورة الثابتة ببساطة عن طريق النقر وسحب الفأرة، مما ينتج فيديو واقعيًا للحركة المطلوبة. - تحكم دقيق في الكاميرا والأجسام: يمكن للمستخدمين التحكم بدقة في حركة الأجسام عن طريق تحريك أشكال هندسية غير مرئية، مثل كرة، وتوليد حركات كاميرا معقدة من خلال تقدير عمق المشهد من الإطار الأول. - نقل الحركة: يمكن نقل الحركة من فيديو مصدر إلى موضوع مختلف في صورة ثابتة، كما في حالة تحويل حركة رأس شخص إلى قرد ماكاك. النتائج والأداء: - أجرت الفريق تقييمات كمية ودراسات بشرية مكثفة للتحقق من فعالية التقنية. - في معظم المؤشرات، بما في ذلك جودة الصورة (PSNR، SSIM) ودقة الحركة (EPE)، أظهر النموذج الجديد أداءً أفضل من النماذج الأخرى مثل Image Conductor وDragAnything. - في الدراسة البشرية، اعتبر المشاركون أن الفيديوهات المولدة بواسطة تقنية Motion Prompting كانت أفضل في الالتزام بالتعليمات الحركية، وأكثر واقعية، وأعلى جودة بصريًا. القيود والاتجاهات المستقبلية: - قد ينتج النموذج أحيانًا نتائج غير طبيعية، مثل تمدد الأجسام بطريقة غير طبيعية إذا تم ربطها خطأً بالخلفية. - تشير الدراسة إلى أن هذه القيود يمكن أن تكون أداة قيمة لاستكشاف نقاط الضعف في فهم النموذج للعالم المادي. التأثير والمستقبل: - تمثل هذه التقنية خطوة مهمة نحو إنشاء نماذج فيديو توليدية تفاعلية ومتحكمة بها. - يمكن لهذه الأداة المتنوعة والقوية أن تصبح معيارًا للمحترفين والمبدعين الذين يرغبون في استغلال القدرات الكاملة للذكاء الاصطناعي في إنتاج الفيديو. تقييم الحدث من قبل المختصين: يعد هذا البحث نقطة تحول في مجال الذكاء الاصطناعي وتطبيقاته في إنتاج الفيديو. يرى الخبراء أن تقنية "Motion Prompting" تفتح أبوابًا جديدة للتعبير والإبداع، مما يمكن المستخدمين من التحكم الدقيق في الحركة بطرق لم تكن متاحة سابقًا. هذا التطور يمكن أن يساهم بشكل كبير في صناعات مثل الإعلان، صناعة الأفلام، والترفيه التفاعلي، حيث يتطلب الأمر تحكماً دقيقاً وواقعيًا في الحركة. نبذة تعريفية عن الشركة: Google DeepMind هي شركة رائدة في مجال الذكاء الاصطناعي، تأسست عام 2010 وتم الاستحواذ عليها من قبل Google في عام 2014. تُركز الشركة على تطوير نماذج الذكاء الاصطناعي المتقدمة التي تهدف إلى حل المشكلات المعقدة في مجالات متنوعة، من الطب إلى الألعاب الرقمية. هذا البحث هو مثال آخر على التزام DeepMind بدفع حدود التقنية وتقديم حلول مبتكرة تسهل استخدام الذكاء الاصطناعي في التطبيقات العملية.