HyperAIHyperAI

Command Palette

Search for a command to run...

مُحَوِّل الفيديو ذاتي التدريب

Kanchana Ranasinghe Muzammal Naseer Salman Khan Fahad Shahbaz Khan Michael Ryoo

الملخص

في هذه الورقة، نقترح تدريبًا ذاتيًا (self-supervised) لمحولات الفيديو باستخدام بيانات فيديو غير مُعلَّمة. من فيديو معطى، نُنشئ رؤى مكانية وزمانيّة محلّية وعالمية بمقاييس مكانية ومعدلات إطارات مختلفة. يهدف الهدف الذاتي المُدرّب إلى مطابقة الميزات الخاصة بهذه الرؤى المختلفة التي تمثل نفس الفيديو، بحيث تكون غير حساسة للتغيرات المكانية والزمنية في الحركات. إلى حد معرفتنا، يُعدّ النهج المقترح أول نهج يُخفّف من الاعتماد على أمثلة سلبية (negative samples) أو بنوك ذاكرة مخصصة في محولات الفيديو ذاتية التدريب (SVT). علاوةً على ذلك، وبفضل المرونة التي تُقدّمها نماذج المحولات (Transformers)، يدعم SVT معالجة الفيديو البطيئة والسريعة ضمن بنية واحدة باستخدام ترميز موقعي ديناميكي، كما يدعم نمذجة العلاقات الطويلة الأمد على المحاور المكانية والزمنية. ويُظهر الأداء الجيد في أربع معايير للتعرف على الحركات (Kinetics-400، UCF-101، HMDB-51، وSSv2)، ويتقارب بشكل أسرع باستخدام أحجام دُفعات صغيرة. الكود: https://git.io/J1juJ


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp