الاستدلال البصري القابل للتفسير من خلال الفضاء الرمزي المُحَفَّز

ندرس مشكلة استخلاص المفاهيم في التفكير البصري، أي تحديد المفاهيم والعلاقات الهرمية بينها من أزواج الأسئلة والإجابات المرتبطة بالصور؛ ونحقق نموذجًا قابلاً للتفسير من خلال العمل على الفضاء المفاهيمي الرمزي المستخلص. ولتحقيق ذلك، نصمم أولًا إطارًا جديدًا يُسمى نموذج الانتباه التجميعي المتمحور حول الكائنات (OCCAM) لإنجاز مهمة التفكير البصري باستخدام ميزات بصرية على مستوى الكائنات. ثم نقترح طريقة لاستخلاص مفاهيم الكائنات والعلاقات باستخدام أدلة مستمدة من أنماط الانتباه بين الميزات البصرية للكائنات وكلمات السؤال. وأخيرًا، نحقق مستوى أعلى من التفسيرية من خلال تطبيق OCCAM على الكائنات الممثلة في الفضاء المفاهيمي الرمزي المستخلص. ويُسهّل تصميم النموذج هذا التكيّف من خلال التنبؤ أولًا بمعاني الكائنات والعلاقات، ثم إعادة إسقاط هذه المفاهيم المتنبأ بها إلى فضاء الميزات البصرية، مما يسمح لوحدة التفكير التجميعي بالعمل بشكل طبيعي. تُظهر التجارب على مجموعتي البيانات CLEVR وGQA ما يلي: 1) يحقق OCCAM لدينا أحدث مستوى من الأداء دون الحاجة إلى برامج وظيفية مُعلَّمة يدويًا؛ 2) تكون المفاهيم المستخلصة دقيقة وكافية، حيث يحقق OCCAM أداءً مُتَقارِبًا في تمثيل الكائنات إما في الفضاء البصري أو في الفضاء المفاهيمي الرمزي المستخلص.