كشف التفاعل البشري-الكائن باستخدام معاني متقاطعة مُحدَّثة عبر الوسائط وفقًا لتوجيه الكائن

كشف تفاعل الإنسان مع الكائن (HOI) يُعد مهمة أساسية لفهم الصور المرتبطة بالإنسان من منظور دقيق. وعلى الرغم من تطور نماذج كشف HOI التي تعمل بشكل متكامل (end-to-end)، إلا أن نموذجها الذي يعتمد على كشف الإنسان والكائن بشكل متوازٍ ثم التنبؤ بفئة الفعل، يفقد الميزة التي تتمتع بها الطرق ذات المرحلتين: التسلسل الهرمي المُوجه بالكائن. فالكائن في أي ثلاثية HOI يوفر مؤشرات مباشرة حول الفعل الذي ينبغي التنبؤ به. في هذه الورقة، نهدف إلى تعزيز النماذج المتكاملة من خلال استخدام معرفة إحصائية موجهة بالكائن. بشكل محدد، نقترح استخدام نموذج دلالي للفعل (VSM) واستغلال التجميع الدلالي للاستفادة من هذا التسلسل الهرمي المُوجه بالكائن. كما نُقدّم خسارة التشابه باستخدام التباعد كولبومر (SKL) لتحسين VSM بحيث يتماشى مع المعرفة الاحتمالية في مجموعة بيانات HOI. ولتجاوز مشكلة التمثيل الدلالي الثابت، نقترح إنشاء ميزات بصرية ودلالية مُدركة للصيغ المتعددة (cross-modality-aware) من خلال عملية المعايرة بين الوسائط (CMC). يتكوّن الشبكة الموجهة بالكائن من خلال المعايرة بين الوسائط (OCN) من دمج هذه الوحدات. أظهرت التجارب التي أُجريت على معيارين شهيرين لكشف HOI أهمية دمج المعرفة الإحصائية، وحققت أداءً يُعد من الأفضل في مجاله. كما تشير التحليلات التفصيلية إلى أن الوحدات المقترحة تعمل كمُنبّئ بالفعل بشكل أكثر قوة، وأسلوبًا أكثر تفوقًا في استغلال المعرفة المسبقة. تُتاح الكودات على الرابط التالي: \url{https://github.com/JacobYuan7/OCN-HOI-Benchmark}.