HyperAIHyperAI
منذ 3 أشهر

FGAHOI: رؤوس مفصلة للكشف عن التفاعل البشري-الكائن

Shuailei Ma, Yuefeng Wang, Shanze Wang, Ying Wei
FGAHOI: رؤوس مفصلة للكشف عن التفاعل البشري-الكائن
الملخص

التفاعل بين الإنسان والكائن (HOI)، باعتباره مشكلة مهمة في رؤية الحاسوب، يتطلب تحديد زوج الإنسان-الكائن وتحديد العلاقات التفاعلية بينهما. يمتلك مثيل HOI نطاقًا أوسع من حيث المساحة والمقاييس والمهمة مقارنة بمثيلات الكائنات الفردية، مما يجعل كشفه أكثر عرضة للإرباك الناتج عن الخلفيات الضوضائية. ولتقليل تأثير الخلفيات الضوضائية على كشف HOI، من الضروري أخذ معلومات الصورة المدخلة بعين الاعتبار لإنشاء محاور دقيقة (anchors) تُستخدم بعدها لتوجيه كشف مثيلات HOI. ومع ذلك، يظل هذا الأمر تحديًا لأسباب متعددة: أولاً، لا يزال استخلاص السمات الأساسية من الصور ذات الخلفيات المعقدة مسألة مفتوحة. ثانيًا، لا يزال التماثل الدلالي بين السمات المستخرجة وحقول الاستعلام (query embeddings) مشكلة صعبة. في هذه الورقة، نقترح إطارًا جديدًا مبنيًا على نموذج المحولات (transformer) يُدعى FGAHOI، يهدف إلى تخفيف التحديات المذكورة أعلاه. يتكون FGAHOI من ثلاث مكونات مخصصة: الاستخلاص متعدد المقاييس (MSS)، ودمج مساحي هرمي مُدرك (HSAM)، وآلية دمج مُدركَة للمهمة (TAM). يُستخرج من خلال MSS سمات الإنسان، والكائن، ومناطق التفاعل من الخلفيات الضوضائية للكشف عن مثيلات HOI ذات مقاييس مختلفة. ويقوم HSAM وTAM بالتسلسل على التوالي بتماثل دلالي ودمج السمات المستخرجة وحقول الاستعلام من منظورين هرميين: من حيث المساحة والمهمة. وفي الوقت نفسه، تم تصميم استراتيجية تدريب جديدة تُسمى "التدريب التدريجي (Stage-wise Training Strategy)" لتقليل الضغط الناتج عن المهام المعقدة جدًا التي يُعهد بها إلى FGAHOI. بالإضافة إلى ذلك، نقترح طريقتين لقياس صعوبة كشف HOI، ونُقدّم مجموعة بيانات جديدة تُسمى HOI-SDC لمعالجة التحديين الرئيسيين في كشف مثيلات HOI: "التوزيع غير الموحّد للمساحات في أزواج الإنسان-الكائن" و"نمذجة الرؤية على مسافات طويلة في أزواج الإنسان-الكائن".