دمج نظرة الإنسان في الانتباه للاعتراف بالأنشطة الذاتية

من المعروف أن نظر الإنسان يحمل معلومات مهمة عن الانتباه البصري. ومع ذلك، هناك ثلاث صعوبات رئيسية في دمج بيانات النظر في آلية انتباه الشبكات العصبية العميقة: 1) نقاط التركيز البصري من المحتمل أن تحتوي على أخطاء قياس بسبب الرمش والحركات السريعة للعين؛ 2) ليس واضحاً متى وكيف تكون بيانات النظر مرتبطة بالانتباه البصري؛ و3) بيانات النظر ليست متاحة دائماً في العديد من الحالات الواقعية.في هذا العمل، نقدم نهجاً احتمالياً فعالاً لدمج نظر الإنسان في الانتباه المكاني-زماني للاعتراف بأنشطة الشخص الأول. بشكل خاص، نمثل مواقع نقاط التركيز البصري كمتغيرات مخفية منفصلة مهيكلة لنمذجة عدم اليقين المرتبط بها. بالإضافة إلى ذلك، نمذجنا توزيع نقاط التركيز البصري باستخدام طريقة تغايرية (variational method). يتم تعلم توزيع النظر أثناء عملية التدريب بحيث لم تعد الحاجة إلى التسميات الحقيقية لمواقع النظر ضرورية في حالات الاختبار لأنها يتم التنبؤ بها من التوزيع المتعلم للنظر. يتم استخدام مواقع النظر المتوقعة لتوفير مؤشرات انتباه مفيدة لتحسين أداء الاعتراف بالأنشطة. طرقنا تتفوق على جميع النهج السابقة التي تعتبر أفضل ما تم الوصول إليه (state-of-the-art) على مجموعة البيانات EGTEA، وهي مجموعة بيانات كبيرة الحجم للاعتراف بأنشطة الشخص الأول وتزود بقياسات للنظر. كما أجرينا دراسة تقليص (ablation study) وتحليلاً نوعياً لنثبت أن آليتنا للانتباه فعالة.