شبكة تكامل معززة متكيفة موجهة بالعمق للتصنيف القليل النموذج للفيديوهات

يمكن للبشر التعرف بسهولة على الإجراءات مع عدد قليل جدًا من الأمثلة المقدمة، بينما تعتمد النماذج الحالية للتعرف على الفيديو بشكل كبير على مدخلات بيانات مُصنّفة وذات حجم كبير. وقد دفعت هذه الملاحظة إلى ازدياد الاهتمام بتمييز الإجراءات في الفيديو باستخدام عدد قليل من الأمثلة (few-shot video action recognition)، والذي يهدف إلى تعلّم إجراءات جديدة باستخدام عدد ضئيل جدًا من العينات المصنّفة. في هذا البحث، نقترح شبكة تُعرف باسم AMeFu-Net (شبكة التكامل التكيفي الموجهة بالعمق لتمييز الفيديو باستخدام عدد قليل من الأمثلة)، والتي تُعنى بحل مشكلة التمييز القائم على عدد قليل من الأمثلة من ثلاث زوايا رئيسية: أولاً، نخفّف من مشكلة ندرة البيانات بشكل كبير من خلال إدخال معلومات العمق كحامل للمشهد، مما يوفر معلومات بصرية إضافية لنموذجنا؛ ثانيًا، ندمج تمثيلات المقاطع الأصلية بلون RGB مع مقاطع عمق متعددة لا تتوافق صارمة زمنيًا، والتي تم أخذها باستخدام آلية تزامن زمني غير صارم (temporal asynchronization augmentation)، ما يؤدي إلى توليد أمثلة جديدة على مستوى الميزات؛ ثالثًا، نقترح وحدة تكامل جديدة تُسمى التطبيع التكيفي للعينات الموجهة بالعمق (DGAdaIN)، والتي تُمكّن من دمج الوسائط الثنائية (ثنائية التدفق) بكفاءة عالية. علاوةً على ذلك، لمحاكاة عملية التمييز باستخدام عدد قليل من الأمثلة بشكل أفضل، يتم تدريب النموذج بطريقة التعلم التكراري (meta-learning). وقد أظهرت التجارب الواسعة على عدة معايير لتمييز الإجراءات فعالية النموذج المُقترح.