شبكة العلاقات المتمحورة حول الفاعل

الطرق الحالية الأكثر تقدماً لتحديد موقع الأنشطة المكانية-الزمانية تعتمد على الكشف على مستوى الإطار وتقوم بنمذجة السياق الزمني باستخدام شبكات الـ 3D ConvNets (الشبكات العصبية التلافيفية ثلاثية الأبعاد). في هذا البحث، نتقدم خطوة إضافية ونقوم بنمذجة العلاقات المكانية-الزمانية لالتقاط التفاعلات بين الممثلين البشريين والأشياء ذات الصلة والعناصر المشهدية الأساسية لتمييز الأنشطة البشرية المشابهة. نهجنا يتم تحت إشراف ضعيف ويستخرج العناصر ذات الصلة تلقائياً باستخدام شبكة علاقات متمحورة حول الممثل (ACRN). تقوم ACRN بحساب وتجميع المعلومات المتعلقة بالعلاقات الثنائية من خصائص الممثل والمشهد العالمي، وتوليد خصائص العلاقات لتصنيف الأنشطة. يتم تنفيذها كشبكات عصبية ويمكن تدريبها بشكل مشترك مع نظام كشف الأنشطة القائم. نوضح أن ACRN تتفوق على النهج البديلة التي تلتقط معلومات العلاقات، وأن الإطار المقترح يحسن الأداء فوق المستوى الحالي الأكثر تقدماً على قاعدة بيانات JHMDB وAVA. يؤكد تمثيل بصري للخصائص المتعلقة بالعلاقات التي تم تعلمها أن نهجنا قادر على التركيز على العلاقات ذات الصلة لكل نشاط.