HyperAIHyperAI
منذ 11 أيام

D2Conv3D: تبديلات مُتعددة التمدد الديناميكية للتحليل التلقائي للأجسام في الفيديوهات

{Bastian Leibe, Sabarinath Mahadevan, Ali Athar, Christian Schmidt}
D2Conv3D: تبديلات مُتعددة التمدد الديناميكية للتحليل التلقائي للأجسام في الفيديوهات
الملخص

على الرغم من الحظوة الكبيرة التي حظيت بها هذه المهمة من قبل مجتمع البحث، لا يزال هناك مجال واسع للتحسين في مهمة تقسيم الكائنات وتعقبها في مقاطع الفيديو ذات العدسة الواحدة. لقد أثبتت الدراسات الحالية فعالية التحويلات الموسعة (dilated convolutions) والتحويلات القابلة للتشوه (deformable convolutions) في مهام التصنيف على مستوى الصورة. وهذا يمنحنا سببًا معقولًا للاعتقاد بأن التوسعات الثلاثية الأبعاد لهذه التحويلات يجب أن تُحدث تحسينات في الأداء في مهام التصنيف على مستوى الفيديو. ومع ذلك، لم تُستكشَف هذه الجوانب بشكل كافٍ في الأدبيات الحالية. في هذا البحث، نقترح تحويلات موسعة ديناميكية (D2Conv3D): نوع جديد من التحويلات المستوحاة من التحويلات الموسعة والقابلة للتشوه، وتمتد لتشمل المجال ثلاثي الأبعاد (الزماني-المكاني). ونُظهر تجريبيًا أن D2Conv3D يمكن استخدامها لتحسين أداء العديد من بنى الشبكات العصبية الثلاثية الأبعاد (3D CNN) عبر عدة معايير متعلقة بتصنيف الفيديو، وذلك من خلال استبدال التحويلات القياسية بـ D2Conv3D كحل بديل مباشر. كما نُظهر أن D2Conv3D تتفوق على التوسعات البسيطة للتحويلات الموسعة والقابلة للتشوه الحالية إلى الأبعاد الثلاثية. وأخيرًا، نُحقق أداءً جديدًا على مستوى الحالة الحالية (state-of-the-art) في معيار DAVIS 2016 لتصنيف كائنات الفيديو بدون تدريب مُعلَّم. تم إتاحة الكود المصدر بشكل عام عبر الرابط التالي: https://github.com/Schmiddo/d2conv3d.