iCAN: شبكة انتباه مركزة على الحالة لمراقبة التفاعل بين الإنسان والكائنات

في السنوات الأخيرة، شهدنا تقدماً سريعاً في اكتشاف وتعرف نماذج الأشياء الفردية. ومع ذلك، لفهم الوضع في مشهد ما، يجب على الحواسيب التعرف على كيفية تفاعل البشر مع الأشياء المحيطة بهم. في هذا البحث، نتناول المهمة الصعبة لاكتشاف التفاعلات بين الإنسان والأشياء (Human-Object Interaction - HOI). الفكرة الأساسية لدينا هي أن مظهر الشخص أو نموذج الشيء الفردي يحتوي على مؤشرات معلوماتية حول الأجزاء ذات الصلة من الصورة التي يجب التركيز عليها لتسهيل التنبؤ بالتفاعل. للاستفادة من هذه المؤشرات، نقترح وحدة انتباه متمحورة حول النموذج الفردي التي تتعلم تسليط الضوء بشكل ديناميكي على المناطق في الصورة بناءً على مظهر كل نموذج. يسمح لنا هذا الشبكة القائمة على الانتباه بجمع الخصائص ذات الصلة بشكل اختياري للتعرف على التفاعلات بين الإنسان والأشياء (HOIs). نتحقق من فعالية الشبكة المقترحة باستخدام قاعدة بيانات Verb in COCO و HICO-DET ونوضح أن أسلوبنا يقارن بشكل ملائم مع أفضل الأساليب الحالية.