HyperAI

Super SloMo: استخدام الشبكات العصبية لإنشاء حركة بطيئة للغاية

منذ 4 أعوام
أخبار المصانع الكبيرة
神经小兮
特色图像

من أجل حل مشاكل تجميد الفيديو وعدم نعومته، ظهرت طريقة استيفاء الفيديو. إن طريقة Super SloMo التي اقترحتها NVIDIA متقدمة كثيرًا عن العديد من الطرق. بالنسبة لمقطع فيديو تم تسجيله بواسطة جهاز عادي، فإنه يمكنه "بشكل خيالي" إنتاج مقطع فيديو بطيء الحركة بمعدل إطارات مرتفع. بفضل هذه الأداة السحرية، يتم خفض عتبة إنتاج الفيديو بشكل أكبر.

في الوقت الحاضر، يسعى الناس إلى الحصول على معدلات إطارات فيديو أعلى وأعلى، لأن مقاطع الفيديو ذات معدل الإطارات العالي تكون أكثر سلاسة ويمكن أن تعزز بشكل كبير تجربة المشاهدة لدى الأشخاص.
كما تم تحسين معدل إطارات مقاطع الفيديو التي تم التقاطها بواسطة الكاميرات الحالية بشكل مستمر من 25 إطارًا في الثانية إلى 60 إطارًا في الثانية، ثم إلى 240 إطارًا في الثانية وحتى أعلى.

في الوقت الذي تتمتع فيه معظم الأفلام بمعدل إطارات يبلغ 24 إطارًا، حقق فيلم "قاتل الجوزاء" للمخرج آنج لي ابتكارًا في تكنولوجيا الأفلام بمعدل إطارات يبلغ 120 إطارًا.

ومع ذلك، فإن معدات الكاميرا ذات معدل الإطارات المرتفع تتطلب ذاكرة ضخمة وهي باهظة الثمن، لذا فهي ليست شائعة بعد. من أجل الحصول على فيديو بمعدل إطارات مرتفع دون الحاجة إلى معدات احترافية، ظهرت تقنية استيفاء الفيديو.

إن طريقة "تكملة الدماغ" بالذكاء الاصطناعي من NVIDIA Super SloMo متقدمة كثيرًا عن العديد من تقنيات معالجة الفيديو، حتى لو كان معدل الإطارات فقط يمكن أيضًا استكمال مقاطع الفيديو المكونة من 30 إطارًا إلى 60 إطارًا أو 240 إطارًا أو حتى أعلى باستخدام Super SloMo.

مزايا وعيوب طرق إدخال الإطار التقليدية

لفهم Super SloMo بشكل أفضل، دعونا أولاً نلقي نظرة على تقنية استيفاء الفيديو التقليدية الموجودة.

أخذ العينات الإطارية 

أخذ العينات الإطارية هو استخدام الإطارات الرئيسية كإطارات تعويض. جوهرها هو تمديد وقت عرض كل إطار رئيسي، وهو ما يعادل عدم إدراج الإطارات. بصرف النظر عن الحصول على معدل إطارات أعلى وحجم ملف أكبر بنفس جودة الفيديو، فلن يؤدي ذلك إلى أي تحسن في الإدراك البصري.

ميزة:يستهلك أخذ العينات الإطارية موارد أقل ويكون سريعًا.

عيب:قد يؤدي هذا إلى جعل الفيديو يبدو غير سلس للغاية.

خلط الإطارات 

دمج الإطارات، كما يوحي الاسم، هو زيادة شفافية الإطارات الرئيسية السابقة والتالية، ثم دمجها في إطار جديد لملء الفجوة.

ميزة:احسب المدة التي سوف تستغرقها.

عيب:التأثير ليس جيدا. نظرًا لأن الإطار الرئيسي الأصلي أصبح شفافًا بكل بساطة، فعندما يتداخل مخطط الكائن المتحرك مع الإطارات السابقة والتالية، سيتم إنتاج مشهد ضبابي واضح، مما يحسن بشكل طفيف فقط من سلاسة التأثير المرئي للفيديو.

تعويض الحركة 

مبدأ تعويض الحركة (MEMC) هو العثور على الكتل ذات الحركة في الاتجاهين الأفقي والرأسي بناءً على الفرق بين إطارين، وتحليل اتجاه حركة كتل الصورة، ثم حساب الإطارات الوسيطة.

يتم استخدام MEMC بشكل أساسي في أجهزة التلفزيون والشاشات والأجهزة المحمولة لتحسين معدل إطارات الفيديو ومنح المشاهدين تجربة مشاهدة أكثر سلاسة.

ميزة:تقليل اهتزاز الحركة، وإضعاف التتبع والظلال في الصورة، وتحسين وضوح الصورة.

عيب:عندما تكون خلفية الكائن المتحرك معقدة، ستظهر مشكلة حركة حافة الكائن.

طريقة التدفق البصري 

تعتبر طريقة التدفق البصري اتجاهًا مهمًا في أبحاث الرؤية الحاسوبية. يستنتج مسار حركة البكسل استنادًا إلى الإطارات العلوية والسفلية ويقوم تلقائيًا بإنشاء إطارات فارغة جديدة. إنه مشابه إلى حد ما لطريقة حساب ضبابية الحركة.

ميزة:الصورة أصبحت أكثر سلاسة والشعور بالتأخير أصبح أقل.

عيب:الحساب كبير ويستغرق وقتا طويلا؛ فهو حساس للضوء وعرضة لأخطاء اضطراب الصورة عندما يتغير الضوء بشكل كبير.

Super SloMo: طريقة الاستيفاء بالذكاء الاصطناعي، وهي طريقة كلاسيكية في الصناعة

في مؤتمر CVPR لأفضل أجهزة الكمبيوتر لعام 2018، نشرت NVIDIA ورقة بحثية "Super SloMo: تقدير عالي الجودة لإطارات وسيطة متعددة لاستيفاء الفيديو"وفي هذه الورقة البحثية، تم اقتراح Super SloMo، والذي جذب اهتمامًا واسعًا في الصناعة.

الحركة البطيئة للغاية: تقدير عالي الجودة لاستيفاء إطارات وسيطة متعددة في مقاطع الفيديو

عنوان الورقة: https://arxiv.org/pdf/1712.00080.pdf

تختلف تقنية Super SloMo عن الطرق التقليدية. تستخدم الشبكات العصبية العميقة لتنفيذ استيفاء الإطارات. الفكرة الأساسية هي:استخدم عددًا كبيرًا من مقاطع الفيديو العادية ومقاطع الفيديو ذات الحركة البطيئة للتدريب، ثم دع الشبكة العصبية تتعلم التفكير وتوليد مقاطع فيديو عالية الجودة ذات حركة بطيئة للغاية استنادًا إلى مقاطع الفيديو العادية.

يتضمن الرسم التخطيطي لإطار عمل طريقة Super SloMo وحدة حساب التدفق البصري (يسار) ووحدة استيفاء تدفق زمني محدد (يمين)

الطريقة التي اقترحها فريق Super SloMo،يعتمد إطارها بالكامل على شبكتين عصبيتين ملتويتين بالكامل U-Net.

أولاً، يتم استخدام U-Net لحساب التدفق البصري ثنائي الاتجاه بين صور الإدخال المتجاورة. يتم بعد ذلك تركيب هذه التدفقات البصرية بشكل خطي في كل خطوة زمنية لتقريب التدفق البصري ثنائي الاتجاه للإطارات الوسيطة.

لتناول مشكلة آثار حدود الحركة، يتم استخدام شبكة U-Net أخرى لتحسين التدفق البصري التقريبي والتنبؤ بخريطة الرؤية المرنة. أخيرًا، يتم تشويه صورتي الإدخال ودمجهما خطيًا لتشكيل إطار وسيط.

بالإضافة إلى ذلك، لا تعتمد معلمات شبكة حساب التدفق البصري وشبكة الاستيفاء في Super SloMo على خطوة زمنية محددة للإطار المتدخل (يتم استخدام خطوة الوقت كمدخل للشبكة). وبالتالي، فإنه يمكنه استيفاء الإطارات في أي خطوة زمنية بين إطارين بالتوازي، وبالتالي اختراق قيود العديد من طرق استيفاء الإطار الفردي.

فيديو SloMo الأصلي (أعلى)فيديو Super SloMo بعد إضافة الإطارات (أسفل)

يقول المؤلفون أنه باستخدام كود PyTorch غير المحسن الخاص بهم، فإن إنشاء 7 إطارات وسيطة بدقة 1280 * 720 يستغرق 0.97 ثانية و 0.79 ثانية فقط على وحدة معالجة رسومية واحدة NVIDIA GTX 1080Ti وTesla V100، على التوالي.

لتدريب الشبكة،قام المؤلفون بجمع عدة مقاطع فيديو بمعدل 240 إطارًا في الثانية من موقع YouTube والكاميرات المحمولة. تم جمع ما مجموعه 1100 مقطع فيديو، تتكون من 300000 إطار فيديو مستقل بدقة 1080 × 720.تغطي هذه الفيديوهات مجموعة واسعة من المشاهد، من الداخل إلى الخارج، ومن الكاميرات الثابتة إلى الكاميرات الديناميكية، ومن الأنشطة اليومية إلى الرياضات الاحترافية.

تم بعد ذلك التحقق من النموذج على مجموعات بيانات أخرى، وأظهرت النتائج أن هذه الدراسة حسنت بشكل كبير أداء الأساليب الحالية على هذه المجموعات من البيانات.

اتبع البرنامج التعليمي لتحقيق Super SloMo بنقرة واحدة

على الرغم من أن مؤلفي ورقة NVIDIA هذه لم يصدروا بعد مجموعة البيانات والرمز، إلا أن هناك خبراء بين الجمهور. قام مستخدم يدعى avinashpaliwal على GitHub بإنشاء نسخة مفتوحة المصدر من تنفيذه الخاص لـ Super SloMo على PyTorch، وكانت النتائج متطابقة تقريبًا مع ما هو موضح في الورقة البحثية.

تفاصيل المشروع هي كما يلي:

التصوير البطيء للغاية باستخدام عدسة الحركة البطيئة للغاية

نظرًا لأن تدريب النموذج واختباره يتم على PyTorch 0.4.1 وCUDA 9.2، فمن الضروري تثبيت هذين البرنامجين. بالإضافة إلى ذلك، ستحتاج أيضًا إلى بطاقة رسوميات NVIDIA.

بالإضافة إلى ذلك، لا يمكن تدريب النموذج بشكل مباشر باستخدام مقاطع الفيديو، لذا تحتاج أيضًا إلى تثبيت ffmpeg لاستخراج الإطارات من الفيديو. بعد الانتهاء من كل هذه الاستعدادات، يمكنك تنزيل مجموعة بيانات Adobe 240fps للتدريب.

ومع ذلك، لا تحتاج إلى إعداد هذه الأشياء، فقط كن "سائلاً" هادئًا وحقق Super SloMo بنقرة واحدة.

لقد وجدنا البرنامج التعليمي المقابل على منصة خدمة حاويات قوة الحوسبة للتعلم الآلي المحلية (https://openbayes.com). من مجموعات البيانات إلى الأكواد إلى قوة الحوسبة، كل شيء متاح، لذلك حتى المبتدئ يمكنه البدء بسهولة.

رابط البرنامج التعليمي:
https://openbayes.com/console/openbayes/containers/xQIPlDQ0GyD/overview

دليل المستخدم التعليمي 

أولاً، قم بالتسجيل وتسجيل الدخول إلى https://openbayes.com/، ضمن قائمة "الموارد العامة" 「دورة تعليمية عامة」, حدد هذا البرنامج التعليمي——"تنفيذ كاميرا الحركة البطيئة للغاية Super-SloMo في PyTorch".

ملف العرض النموذجي في البرنامج التعليمي هو Super-SloMo.ipynb. سيؤدي تشغيل هذا الملف إلى تثبيت البيئة وعرض تأثير الحركة البطيئة للغاية للإطارات النهائية المتدخلة.
يمكنك أيضًا استخدام مادة الفيديو الخاصة بك وتغيير lightning-dick-clip.mp4 في الكود المولد أدناه إلى اسم ملف الفيديو الخاص بك.
يتم استخدام الخاصية "scale" للتحكم في سرعة الفيديو الناتج. على سبيل المثال، إذا تم ضبطه على 4، فسيكون الحركة بطيئة 4 مرات.

إنشاء الكود:

!python3 'Super-SloMo/eval.py' \    'lightning-dick-clip.mp4' \    --checkpoint='/openbayes/input/input0/SuperSloMo.ckpt' \    --output='output-tmp.mp4' \    --scale=4print('Done')

كود تحويل صيغة الفيديو:

!ffmpeg -i output-tmp.mp4 -vcodec libx264 -acodec aac output.mp4

في هذا البرنامج التعليمي، تم استخدام مقطع فيديو من الإنترنت لأداء استيفاء Super SloMo، وتم الحصول على النتائج التالية:

صورة4x حركة بطيئة لرؤية كل خطوة من خطوات فنون القتال بوضوح

حاليًا، تقدم المنصة أيضًا وقتًا مجانيًا لاستخدام vGPU كل أسبوع. يمكن لأي شخص إكماله بسهولة، لذا جربه الآن!

اصنع حركة بطيئة للغاية مذهلة بيديك


مراجع:

الورقة: https://arxiv.org/pdf/1712.00080.pdf

الصفحة الرئيسية للمشروع: http://jianghz.me/projects/superslomo/

https://zhuanlan.zhihu.com/p/86426432