منذ 4 أشهر

D2Conv3D: تبديلات مُتعددة التمدد الديناميكية للتحليل التلقائي للأجسام في الفيديوهات

{Bastian Leibe Sabarinath Mahadevan Ali Athar Christian Schmidt}

الملخص

على الرغم من الحظوة الكبيرة التي حظيت بها هذه المهمة من قبل مجتمع البحث، لا يزال هناك مجال واسع للتحسين في مهمة تقسيم الكائنات وتعقبها في مقاطع الفيديو ذات العدسة الواحدة. لقد أثبتت الدراسات الحالية فعالية التحويلات الموسعة (dilated convolutions) والتحويلات القابلة للتشوه (deformable convolutions) في مهام التصنيف على مستوى الصورة. وهذا يمنحنا سببًا معقولًا للاعتقاد بأن التوسعات الثلاثية الأبعاد لهذه التحويلات يجب أن تُحدث تحسينات في الأداء في مهام التصنيف على مستوى الفيديو. ومع ذلك، لم تُستكشَف هذه الجوانب بشكل كافٍ في الأدبيات الحالية. في هذا البحث، نقترح تحويلات موسعة ديناميكية (D2Conv3D): نوع جديد من التحويلات المستوحاة من التحويلات الموسعة والقابلة للتشوه، وتمتد لتشمل المجال ثلاثي الأبعاد (الزماني-المكاني). ونُظهر تجريبيًا أن D2Conv3D يمكن استخدامها لتحسين أداء العديد من بنى الشبكات العصبية الثلاثية الأبعاد (3D CNN) عبر عدة معايير متعلقة بتصنيف الفيديو، وذلك من خلال استبدال التحويلات القياسية بـ D2Conv3D كحل بديل مباشر. كما نُظهر أن D2Conv3D تتفوق على التوسعات البسيطة للتحويلات الموسعة والقابلة للتشوه الحالية إلى الأبعاد الثلاثية. وأخيرًا، نُحقق أداءً جديدًا على مستوى الحالة الحالية (state-of-the-art) في معيار DAVIS 2016 لتصنيف كائنات الفيديو بدون تدريب مُعلَّم. تم إتاحة الكود المصدر بشكل عام عبر الرابط التالي: https://github.com/Schmiddo/d2conv3d.

المعايير القياسية

معيار قياسي	المنهجية	المقاييس
unsupervised-video-object-segmentation-on-10	D2Conv3D	F: 86.5 G: 86.0 J: 85.5
video-instance-segmentation-on-ovis-1	D2Conv3D (ResNet-50)	AP50: 33.8 AP75: 13.7 mask AP: 15.2

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp