التعلم المتسق من خلال تعزيز مسار التفكيك للتحويلات في كشف تفاعل الإنسان بالجسم

كشف التفاعل بين الإنسان والكائن هو مهمة شاملة في التعرف البصري، وتتطلب كلاً من كشف الكائنات وتصنيف التفاعلات. وقد تم معالجة الدراسات السابقة المتعلقة بكشف التفاعل بين الإنسان والكائن من خلال تراكيب مختلفة من التنبؤات الجزئية، مثل: الصورة → التفاعل بين الإنسان والكائن → التفاعل، أو الصورة → التفاعل بين الإنسان والكائن → الكائن. في الآونة الأخيرة، ظهرت معمارية قائمة على المُحَوِّل (Transformer) للكشف عن التفاعل بين الإنسان والكائن، والتي تتنبأ مباشرة بثلاثيات HOI (الإنسان، الكائن، التفاعل) بطريقة نهائية (الصورة → HOI). مستوحى من المسارات المختلفة للاستنتاج في كشف التفاعل بين الإنسان والكائن، نقترح استراتيجية جديدة تُسمى التعلم بالاتساق عبر المسارات (Cross-Path Consistency Learning - CPC)، وهي استراتيجية تعلم نهائية جديدة لتحسين كشف التفاعل بين الإنسان والكائن باستخدام المُحَوِّلات، وذلك من خلال الاستفادة من مسارات فك التشفير المُعززة. يُفرض تعلم CPC أن تكون جميع التنبؤات الممكنة الناتجة عن التسلسلات المُتَبَدِّلة للتحليل متسقة مع بعضها. تجعل هذه الطريقة البسيطة النموذج يتعلم تمثيلات متسقة، مما يعزز القدرة على التعميم دون الحاجة إلى زيادة قدرة النموذج. تُظهر تجاربنا فعالية طريقة العمل، وحققنا تحسينًا ملحوظًا على مجموعتي البيانات V-COCO وHICO-DET مقارنةً بالنموذج الأساسي. يمكن الوصول إلى الكود الخاص بنا من خلال الرابط التالي: https://github.com/mlvlab/CPChoi.