GEN-VLKT: تبسيط الترابط وتعزيز فهم التفاعل للكشف عن التفاعل البشري-الكائن

يمكن تقسيم مهمة كشف التفاعل البشري-الكائن (Human-Object Interaction (HOI)) إلى مشكلتين رئيسيتين: وهي توصيل الإنسان بالكائن وفهم التفاعل. في هذه الورقة، نكشف عن العيوب الموجودة في مُكتشفات HOI التقليدية المُوجهة بالاستعلام (query-driven) من جهتين رئيسيتين. أما بالنسبة للربط، فإن الطرق الثنائية الفرع (two-branch) السابقة تعاني من عملية ما بعد التوافُق المعقدة والمبِلَّة، في حين أن الطرق أحادية الفرع (single-branch) تتجاهل التمييز بين الميزات في المهام المختلفة. ولحل هذه المشكلة، نقترح شبكة التضمين المُوجَّه (Guided-Embedding Network (GEN)) التي تحقق نموذجًا ثنائي الفرع دون الحاجة إلى عملية ما بعد التوافُق. في GEN، نصمم مُفكِّكًا للInstances (instance decoder) للكشف عن البشر والكائنات باستخدام مجموعتين من الاستعلامات المستقلتين، ونُصمم تضمينًا مُوجَّهًا بالمكان (position Guided Embedding (p-GE)) لتسمية الإنسان والكائن الموجودين في نفس الموقع كزوج مترابط. علاوةً على ذلك، نصمم مُفكِّكًا للتفاعل (interaction decoder) لتصنيف التفاعلات، حيث تتكوَّن استعلامات التفاعل من تضمينات مُوجَّهة بالInstances (i-GE) التي تُولَّد من مخرجات كل طبقة في مُفكِّك الـInstance. أما بالنسبة لفهم التفاعل، فإن الطرق السابقة تعاني من توزيع طويل đuّام (long-tailed distribution) وصعوبة اكتشاف التفاعلات في حالات الصفر (zero-shot discovery). ولتحسين فهم التفاعل، نقترح استراتيجية تدريب تُسمى نقل المعرفة البصرية-اللغوية (Visual-Linguistic Knowledge Transfer (VLKT))، والتي تعزز فهم التفاعل من خلال نقل المعرفة من نموذج مُدرَّب مسبقًا على البيانات البصرية-اللغوية (CLIP). على وجه التحديد، نستخرج تضمينات نصية لجميع التصنيفات باستخدام CLIP لبدء تهيئة المصنِّف، ونستخدم خسارة مُحاكاة (mimic loss) لتقليل المسافة بين السمات البصرية لـ GEN وCLIP. في النتيجة، يتفوَّق GEN-VLKT على أفضل النماذج الحالية بمعدلات كبيرة على عدة مجموعات بيانات، مثل زيادة قدرها +5.05 في mAP على HICO-Det. تتوفر الأكواد المصدرية على الرابط: https://github.com/YueLiao/gen-vlkt.