QPIC: اكتشاف التفاعلات الثنائية بين الإنسان والكائنات بناءً على الاستعلامات مع معلومات سياقية شاملة للصورة

نقترح طريقة بسيطة وفطرية ومع ذلك قوية للكشف عن تفاعلات الإنسان مع الأشياء (Human-Object Interaction - HOI). تتميز هذه التفاعلات بالتنوع الكبير في التوزيع المكاني داخل الصورة، مما يجعل الطرق الحالية القائمة على الشبكات العصبية المت convoled (CNN) تواجه ثلاثة عيوب رئيسية؛ فهي لا تستطيع الاستفادة من الخصائص الشاملة للصورة بسبب خاصية المحلية في CNN، تعتمد على موقع محدد يُعرَّف يدويًا لتجميع الخصائص، وهو ما قد لا يغطي المناطق السياقية المهمة دائمًا، ولا يمكنها إلا أن تخلط بين خصائص الحالات المتعددة لتفاعلات الإنسان مع الأشياء إذا كانت هذه الحالات قريبة من بعضها البعض.للتغلب على هذه العيوب، نقترح مستخرج خصائص قائم على محول (Transformer)، حيث تقوم آلية الانتباه (Attention Mechanism) والكشف القائم على الاستعلامات (Query-based Detection) بأدوار مهمة. تعمل آلية الانتباه بشكل فعال في جمع المعلومات السياقية المهمة عبر كامل الصورة، بينما يمكن للاستعلامات التي نصممها بحيث يتم التقاط كل استعلام لأقصى حد زوج واحد من الإنسان والشيء، تجنب الخلط بين الخصائص من حالات متعددة. ينتج هذا المستخرج الخصائص القائم على المحول تمثيلات (Embeddings) فعالة للغاية، مما يجعل الرؤوس الكاشفة اللاحقة قد تكون بسيطة وفطرية نسبيًا. كشفت التحليلات الواسعة أن الطريقة المقترحة تنجح في استخراج الخصائص السياقية المهمة، وبالتالي فإنها تتفوق على الطرق الحالية بمargins كبيرة (5.37 mAP على HICO-DET و 5.7 mAP على V-COCO). يمكن الحصول على الكود المصدر من الرابط التالي: $\href{https://github.com/hitachi-rd-cv/qpic}{\text{هذا الرابط https}}$.