HyperAIHyperAI
منذ 16 أيام

Bongard-OpenWorld: الاستدلال قليل التدريب للمفاهيم البصرية الحرة الشكل في العالم الحقيقي

Rujie Wu, Xiaojian Ma, Zhenliang Zhang, Wei Wang, Qing Li, Song-Chun Zhu, Yizhou Wang
Bongard-OpenWorld: الاستدلال قليل التدريب للمفاهيم البصرية الحرة الشكل في العالم الحقيقي
الملخص

نُقدِّم Bongard-OpenWorld، معيارًا جديدًا لتقييم الاستدلال القليل العينات (few-shot reasoning) في الواقع الحقيقي للرؤية الآلية. يُستمد هذا المعيار من مسائل بونجاردي الكلاسيكية (BPs): بالنظر إلى مجموعتين من الصور (موجبة وسلبية)، يجب على النموذج تحديد المجموعة التي تنتمي إليها الصور الاستعلامية من خلال استخلاص المفاهيم البصرية، والتي تُصوَّر حصريًا بالصور من المجموعة الموجبة. يرث معيارنا مفهوم الاستدلال القليل العينات من المسائل الأصلية لبونجاردي، مع إضافة طبقتين جديدتين من التحديات: (1) مفاهيم مفتوحة العالم ذات أشكال حرة، حيث تُشكّل المفاهيم البصرية في Bongard-OpenWorld تركيبات فريدة من مصطلحات مأخوذة من قاموس مفتوح، تتراوح بين فئات الكائنات إلى السمات البصرية المجردة والمعرفة الواقعية الشائعة؛ (2) صور واقعية، بخلاف المخططات الاصطناعية المستخدمة في العديد من المعايير المشابهة. في دراستنا، يُظهر Bongard-OpenWorld بالفعل تحديًا كبيرًا أمام الخوارزميات الحالية للاستدلال القليل العينات. ونُجري مزيدًا من التحقيق لتحديد مدى قدرة النماذج الكبيرة للغة (LLMs) والنماذج البصرية-اللغوية (VLMs) الحديثة على حل مهامنا، وذلك من خلال التحقيق المباشر في VLMs، ودمج VLMs مع LLMs ضمن نموذج استدلال تفاعلي. بل وصممنا حتى نهجًا عصبي-رمزيًا يُوَحِّد بين LLMs و VLMs مع الاستدلال المنطقي لمحاكاة عملية حل المشكلات البشرية في مسائل بونجاردي. ومع ذلك، لم تتمكن أي من هذه النهج من إغلاق الفجوة بين الإنسان والآلة، إذ حقق أفضل نموذج دارس دقة بلغت 64%، بينما وصل المشاركون البشريون بسهولة إلى 91%. نأمل أن يسهم Bongard-OpenWorld في مساعدتنا على فهم أعمق للقيود المفروضة على الذكاء البصري الحالي، ويعزز الأبحاث المستقبلية المتعلقة بالوكلاء البصريين ذات القدرات الأقوى في الاستدلال البصري القليل العينات.

Bongard-OpenWorld: الاستدلال قليل التدريب للمفاهيم البصرية الحرة الشكل في العالم الحقيقي | أحدث الأوراق البحثية | HyperAI