شبكة الانتباه الذاتي الهرمية لتحديد المواقع الفعلية في الفيديوهات

يقدم هذا البحث شبكة انتباه ذاتي هيراركية جديدة (HISAN) لإنشاء أنابيب فضائية-زمنية لتحديد موقع الأفعال في الفيديوهات. ويتمثّل جوهر HISAN في دمج الشبكة العصبية التلافيفية ذات التدفق المزدوج (CNN) مع آلية انتباه ذاتي ثنائي الاتجاه الهيراركية، والتي تتضمّن مستويين من الانتباه الذاتي الثنائي الاتجاه، بهدف التقاط المعلومات المتعلقة بالاعتماد الزمني الطويل والاتصال المكاني بكفاءة، مما يُسهم في تحسين دقة تحديد موقع الأفعال. بالإضافة إلى ذلك، تم استخدام خوارزمية إعادة تقييم التسلسل (SR) لحل المشكلة الناتجة عن التقييمات غير الموافقة في الكشف الناتجة عن التغطية أو التشويش الخلفي. علاوةً على ذلك، تم اعتماد خطة دمج جديدة تدمج ليس فقط معلومات المظهر والحركة من الشبكة ذات التدفق المزدوج، بل أيضًا معلومات البارزة في الحركة، للتقليل من تأثير حركة الكاميرا. وأظهرت المحاكاة أن النهج الجديد يحقق أداءً تنافسيًا مع أحدث الأعمال في مجال دقة تحديد موقع الأفعال والتقدير الدقيق لها على مجموعتي بيانات واسعتي الانتشار UCF101-24 وJ-HMDB.