HyperAIHyperAI
منذ 11 أيام

النظر السريع والتأمل: استنتاج نقاط واعية بالعملية للكشف عن التفاعل البشري-الكائن في مرحلة واحدة

Xubin Zhong, Xian Qu, Changxing Ding, Dacheng Tao
النظر السريع والتأمل: استنتاج نقاط واعية بالعملية للكشف عن التفاعل البشري-الكائن في مرحلة واحدة
الملخص

يمكن تقسيم الأساليب الحديثة للكشف عن التفاعل بين الإنسان والجسم (HOI) إلى منهجين: منهج واحد المرحلة ونهج مرحلتين. تتميز النماذج ذات المرحلة الواحدة بالكفاءة العالية نظرًا لبنيتها البسيطة، لكن النماذج ذات المرحلتين لا تزال تتفوق في الدقة. غالبًا ما تبدأ النماذج ذات المرحلة الواحدة بتحديد مناطق أو نقاط تفاعل محددة مسبقًا، ثم تركز فقط على هذه المناطق لتقدير التفاعل؛ وبالتالي، تفتقر هذه النماذج إلى خطوات استنتاج ديناميكية تبحث عن مؤشرات تمييزية. في هذا البحث، نقترح منهجًا جديدًا من نوع المرحلة الواحدة يُسمى شبكة "النظر والتأمل" (GGNet)، والتي تُنمذج بشكل تكيفي مجموعة من النقاط المُحَفَّزة بالعملية (ActPoints) من خلال خطوتين: "النظر السريع" و"التأمل التدريجي". تُحدد خطوة "النظر السريع" بسرعة ما إذا كان كل بكسل في خريطة الميزات يُعد نقطة تفاعلًا. أما خطوة "التأمل التدريجي"، فتستخدم خرائط الميزات الناتجة عن خطوة "النظر السريع" لاستنتاج نقاط ActPoints المحيطة بكل بكسل بطريقة تدريجية وتكيفية. ثم يتم جمع ميزات نقاط ActPoints المُحسَّنة لتقدير التفاعل. علاوةً على ذلك، قمنا بتصميم منهج مُحَفَّز بالعملية لربط كل تفاعل مُكتشف بزوج إنسان-جسم مرتبط به بشكل فعّال، بالإضافة إلى تقديم خسارة جديدة للسلبيات الصعبة تُركّز على التمثيل (hard negative attentive loss) لتحسين عملية تحسين GGNet. تتم جميع العمليات المذكورة أعلاه بشكل متزامن وفعال لكل البكسلات في خرائط الميزات. في النهاية، تتفوق GGNet على أحدث الأساليب في كلا المعايير V-COCO وHICODET بفارق كبير. يمكن الوصول إلى الكود المصدري لـ GGNet من خلال الرابط التالي: https://github.com/SherlockHolmes221/GGNet.