Bongard-HOI: تقييم الاستدلال البصري قليل العينة للتفاعلات بين الإنسان والكائن

تظل فجوة كبيرة قائمة بين نماذج التعرف البصري الحالية والفهم البصري البشري، خاصة في ما يتعلق بالتعلم القليل النماذج (few-shot learning) والاستدلال التجميعي للمفاهيم الجديدة. نقدم بونغار-هوي (Bongard-HOI)، معيارًا جديدًا للتفكير البصري يركّز على التعلم التجميعي للتفاعلات بين الإنسان والجسم (HOIs) من الصور الطبيعية. ويُستلهم هذا المعيار من خصائص مطلوبة من مشكلات بونغار الكلاسيكية (BPs): 1) التعلم القليل النماذج للمفاهيم، و2) الاستدلال المعتمد على السياق. وقد قمنا بتحديث الأمثلة القليلة النماذج بعناية، مع تضمين حالات سلبية صعبة (hard negatives)، حيث تختلف الصور الإيجابية والسلبية فقط في تسميات الإجراءات، مما يجعل التعرف البسيط على فئات الكائنات غير كافٍ لإكمال المهام في هذا المعيار. كما صممنا عدة مجموعات اختبار لدراسة التعميم النموذجي لنماذج التعلم البصري، حيث نُغيّر مدى التداخل بين مفاهيم HOIs في مجموعات التدريب والاختبار، من تداخل جزئي إلى عدم تداخل أبدًا. يُعد معيار بونغار-هوي تحديًا كبيرًا للنماذج الحالية في التعرف البصري، حيث تحقق أفضل نموذج حالي للكشف عن التفاعلات بين الإنسان والجسم دقةً فقط بنسبة 62% في المهمة الثنائية القليلة النماذج، في حين تصل دقة الاختبارات البشرية المبتدئة على منصة MTurk إلى 91%. نأمل أن يُسهم معيار بونغار-هوي في دفع عجلة الأبحاث في مجال التفكير البصري، خصوصًا في أنظمة الإدراك-الاستدلال الشاملة وتحسين تعلم التمثيلات.