التمثيلات المضمنة العميقة المشروطة للاعتراف بالحركات

في السنوات الأخيرة، اكتسبت تصنيف الفيديو متعدد العلامات ومتعدد الفئات شعبية كبيرة. بينما تعتبر الاستدلال على الأفعال الذرية المتصلة زمنيًا أمرًا عاديًا للأنواع الذكية، لا تزال الشبكات العصبية الاصطناعية القياسية (ANN) تواجه صعوبة في تصنيفها. في العالم الحقيقي، غالبًا ما تتصل الأفعال الذرية زمنيًا لتشكل أفعالًا مركبة أكثر تعقيدًا. يكمن التحدي في التعرف على الأفعال المركبة ذات المدد الزمنية المختلفة بينما تحدث أفعال مركبة أو ذرية أخرى في الخلفية. مستوحين من نجاح الشبكات العلائقية، نقترح طرقًا تتعلم الاستدلال على المفهوم الدلالي للأجسام والأفعال. نظهر بالتجربة كيف تستفيد الشبكات العصبية الاصطناعية من التدريب الأولي، والتحيزات الاستقرائية العلائقية، والتمثيلات الكامنة المستندة إلى المجموعات غير المرتبة. في هذا البحث، نقترح SCI3D العميق (Deep Set Conditioned I3D)، وهو شبكة علائقية ثنائية التيار تستخدم تمثيل الحالة الكامن وتمثيل الصورة البصرية للاستدلال على الأحداث والأفعال. إنها تتعلم كيفية الاستدلال على الأفعال المتصلة زمنيًا من أجل تحديد جميعها في الفيديو. حققت الطريقة المقترحة تحسينًا بنسبة حوالي 1.49% mAP في التعرف على الأفعال الذرية و17.57% mAP في التعرف على الأفعال المركبة، مقارنة بخط الأساس I3D-NL، على مجموعة بيانات CATER.