HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم التمثيل الذاتي للفيديو باستخدام ألغاز المكعبات المكانية-الزمنية

Dahun Kim Donghyeon Cho In So Kweon

الملخص

تم استخدام المهام ذاتية الإشراف مثل التلوين (colorization) والتكميل (inpainting) وألغاز الجigsaw (jigsaw puzzle) في تعلم تمثيلات بصرية للصور الثابتة عندما يكون عدد الصور المصحوبة بالبيانات محدودًا أو غير موجود تمامًا. مؤخرًا، امتد هذا الاتجاه البحثي الهام إلى مجال الفيديو حيث تكون تكلفة التسمية البشرية أعلى بكثير. ومع ذلك، فإن معظم الأساليب الحالية لا تزال تعتمد على هياكل الشبكات العصبية المتلافهة ثنائية الأبعاد (2D CNN) التي لا تستطيع التقاط المعلومات الزمانية-المكانية مباشرة لتطبيقات الفيديو. في هذه الورقة البحثية، نقدم مهمة ذاتية الإشراف جديدة تُعرف باسم \textit{ألغاز الكتل الزمانية-المكانية} (\textit{Space-Time Cubic Puzzles}) لتدريب شبكات CNN ثلاثية الأبعاد باستخدام قاعدة بيانات فيديو كبيرة الحجم. تتطلب هذه المهمة من الشبكة إعادة ترتيب القطع الزمانية-المكانية ثلاثية الأبعاد المختلطة. من خلال إكمال \textit{ألغاز الكتل الزمانية-المكانية}، تتعلم الشبكة كلًا من المظهر المكاني والعلاقة الزمنية بين الإطارات الفيديوية، وهو الهدف النهائي لنا. في التجارب، أظهرنا أن التمثيل الثلاثي الأبعاد الذي تم تعلمه ينتقل بشكل جيد إلى مهام التعرف على الحركات ويتفوق على المنافسين المستندين إلى شبكات CNN ثنائية الأبعاد الأكثر حداثة في مجموعتي البيانات UCF101 و HMDB51.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp