التعلم التكويني البصري لاكتشاف تفاعل الإنسان مع الأشياء

اكتشاف التفاعل بين الإنسان والكائن (HOI) يهدف إلى تحديد المواقع واستنتاج العلاقات بين الإنسان والكائنات في صورة. يعد هذا التحدي صعبًا بسبب وجود عدد هائل من الاحتمالات الممكنة لتركيبات الكائنات وأنواع الأفعال، مما يؤدي إلى توزيع ذي ذيل طويل. قمنا بتطوير إطار عميق للتعلم البصري التركيب (VCL)، وهو إطار بسيط ولكنه فعال لمعالجة هذه المشكلة بشكل فعال. يقوم VCL أولاً بتفكيك تمثيل HOI إلى ميزات خاصة بالكائن والأفعال، ثم يقوم بتجميع عينات تفاعلية جديدة في مجال الميزات من خلال ربط الميزات المفككة. يمكّن دمج التفكيك والتجميع VCL من مشاركة ميزات الكائن والأفعال بين عينات HOI المختلفة والصور، وإنشاء عينات تفاعلية جديدة وأنواع جديدة من HOI، وبالتالي يخفف بشكل كبير مشكلة التوزيع ذي الذيل الطويل ويستفيد من اكتشاف HOI ذو الطلقات القليلة أو الصفر. أظهرت التجارب الواسعة أن الإطار المقترح VCL يمكنه تحسين تعميم اكتشاف HOI على HICO-DET و V-COCO ويتفوق على الأساليب الحديثة الأكثر تقدمًا في HICO-DET. يمكن الوصول إلى الرمز البرمجي عبر الرابط: https://github.com/zhihou7/VCL.