AEI: تفاعل الممثلين مع البيئة باستخدام الانتباه التكيفي لتقديم اقتراحات الأفعال الزمنية

يقوم البشر عادةً بفهم إنشاء العمل في الفيديو من خلال التفاعل بين الممثل والبيئة المحيطة. يبدأ العمل فقط عندما يبدأ الممثل الرئيسي في الفيديو بالتفاعل مع البيئة، وينتهي عندما يتوقف الممثل الرئيسي عن هذا التفاعل. على الرغم من التقدم الكبير في توليد اقتراحات الأحداث الزمنية، فإن معظم الأعمال الحالية تتجاهل هذه الحقيقة وتترك لنموذجها عملية اقتراح الأحداث كصناديق سوداء. في هذا البحث، نحاول محاكاة قدرة الإنسان على فهم ذلك من خلال اقتراح شبكة تفاعل الممثل والبيئة (AEI) لتحسين تمثيل الفيديو لتوليد اقتراحات الأحداث الزمنية. تحتوي AEI على وحدتين، وهما: التمثيل البصري القائم على الإدراك (PVR) ووحدة مطابقة الحدود (BMM). يتمثل PVR في تمثيل كل جزء من أجزاء الفيديو بأخذ العلاقات بين الإنسان والإنسان والعلاقات بين الإنسان والبيئة بعين الاعتبار باستخدام آلية الانتباه التكيفي المقترحة. ثم يتم استخدام تمثيل الفيديو بواسطة BMM لتوليد اقتراحات للأعمال. تم تقييم AEI بشكل شامل في مجموعتي بيانات ActivityNet-1.3 وTHUMOS-14، في مهمتي اقتراح الأحداث الزمنية وكشفها، باستخدام هندستين لمطابقة الحدود (أي قائمة على الشبكات العصبية التلافيفية CNN وقائمة على الشبكات العصبية الرسومية GCN) ومصنفين اثنين (أي Unet وP-GCN). حققت شبكتنا AEI أداءً ملحوظًا وتعميمًا أفضل بكثير من أفضل الأساليب الموجودة حاليًا لكل من توليد اقتراحات الأحداث الزمنية وكشفها.