توسيع الرؤية: الاستدلال البصري المشترك الجغرافي المتنوع

يُعرّف المعرفة المشتركة (Commonsense) بأنها المعرفة التي يشترك فيها الجميع. ومع ذلك، ترتبط بعض أنواع المعرفة المشتركة بالثقافة والمواقع الجغرافية، وتنحصر في نطاق محلي فقط. على سبيل المثال، تختلف سيناريوهات حفلات الزفاف بين المناطق بسبب اختلاف العادات الناتجة عن العوامل التاريخية والدينية. ومع ذلك، تُهمل هذه الخصائص الإقليمية عادةً في الأبحاث السابقة. في هذا البحث، نُنشئ مجموعة بيانات لاستدلال المعرفة المشتركة البصرية المتنوعة جغرافيًا (GD-VCR) لاختبار قدرة نماذج الرؤية واللغة على فهم المعرفة المشتركة المرتبطة بالثقافة والموقع الجغرافي. وبشكل خاص، ندرس نموذجين حديثين من نماذج الرؤية واللغة هما VisualBERT وViLBERT، اللذين تم تدريبهما على مجموعة VCR، وهي معيار قياسي متعدد الوسائط للمعرفة المشتركة، وتشمل صورًا في الغالب من المناطق الغربية. ثم نقيّم مدى قدرة النماذج المدربة على التعميم والرد على الأسئلة في مجموعة GD-VCR. ونجد أن أداء النموذجين في المناطق غير الغربية، بما في ذلك شرق آسيا وجنوب آسيا وإفريقيا، أقل بشكل ملحوظ مقارنةً بأداء النموذجين في المناطق الغربية. ونحلل الأسباب الكامنة وراء هذا الفجوة في الأداء، ونكتشف أن الفجوة أكبر في أزواج الأسئلة والإجابات التي: 1) تتعلق بسيناريوهات مرتبطة بالثقافة، مثل الزفاف والأنشطة الدينية والأعياد؛ 2) تتطلب استدلالًا معرفيًا مشتركًا عالي المستوى متنوعًا جغرافيًا، وليس مجرد إدراك وتمييز منخفض الرتبة. تم إتاحة مجموعة البيانات والكود على الرابط التالي: https://github.com/WadeYin9712/GD-VCR.