D3D: شبكات ثلاثية الأبعاد مُصفَّاة لتمييز أفعال الفيديو

تستخدم الطرق المعاصرة لتمييز الأنشطة في الفيديو عادةً مزيجًا من شبكتين: التيار المكاني، الذي يأخذ الإطارات RGB كمدخلات، والتيار الزمني، الذي يأخذ التدفق البصري كمدخلات. وفي الأعمال الحديثة، تتكون كلتا هاتين الشبكتين من شبكات العصبونات ثلاثية الأبعاد (3D Convolutional Neural Networks)، والتي تطبق مرشحات زمانية-مكانية على مقطع الفيديو قبل إجراء التصنيف. بمفهوم عام، يجب أن تسمح المرشحات الزمنية للتيار المكاني بتعلم تمثيلات الحركة، مما يجعل التيار الزمني زائدًا عن الحاجة. ومع ذلك، لا يزال هناك فائدة كبيرة في أداء تمييز الأنشطة عند تضمين تيار زمني منفصل تمامًا، مما يشير إلى أن التيار المكاني "يفقد" بعض الإشارات التي يتم التقاطها بواسطة التيار الزمني.في هذا العمل، نقوم أولاً بالتحقيق فيما إذا كانت تمثيلات الحركة فعليًا مفقودة في التيار المكاني لشبكات العصبونات ثلاثية الأبعاد (3D CNNs). ثانيًا، نوضح أنه يمكن تحسين هذه التمثيلات عن طريق الاستخلاص (distillation)، وذلك بضبط التيار المكاني لتوقع مخرجات التيار الزمني، مما يؤدي إلى دمج النموذجين في تيار واحد فعليًا. وأخيرًا، نظهر أن شبكتنا الثلاثية المستخلصة (Distilled 3D Network - D3D) تحقق أداءً مكافئًا لنهجتي الجريان الثنائيتين باستخدام نموذج واحد فقط وبلا حاجة لحساب التدفق البصري.