منذ 17 أيام

الاستدلال البصري القابل للتفسير من خلال الفضاء الرمزي المُحَفَّز

Zhonghao Wang, Kai Wang, Mo Yu, Jinjun Xiong, Wen-mei Hwu, Mark Hasegawa-Johnson, Humphrey Shi

الملخص

ندرس مشكلة استخلاص المفاهيم في التفكير البصري، أي تحديد المفاهيم والعلاقات الهرمية بينها من أزواج الأسئلة والإجابات المرتبطة بالصور؛ ونحقق نموذجًا قابلاً للتفسير من خلال العمل على الفضاء المفاهيمي الرمزي المستخلص. ولتحقيق ذلك، نصمم أولًا إطارًا جديدًا يُسمى نموذج الانتباه التجميعي المتمحور حول الكائنات (OCCAM) لإنجاز مهمة التفكير البصري باستخدام ميزات بصرية على مستوى الكائنات. ثم نقترح طريقة لاستخلاص مفاهيم الكائنات والعلاقات باستخدام أدلة مستمدة من أنماط الانتباه بين الميزات البصرية للكائنات وكلمات السؤال. وأخيرًا، نحقق مستوى أعلى من التفسيرية من خلال تطبيق OCCAM على الكائنات الممثلة في الفضاء المفاهيمي الرمزي المستخلص. ويُسهّل تصميم النموذج هذا التكيّف من خلال التنبؤ أولًا بمعاني الكائنات والعلاقات، ثم إعادة إسقاط هذه المفاهيم المتنبأ بها إلى فضاء الميزات البصرية، مما يسمح لوحدة التفكير التجميعي بالعمل بشكل طبيعي. تُظهر التجارب على مجموعتي البيانات CLEVR وGQA ما يلي: 1) يحقق OCCAM لدينا أحدث مستوى من الأداء دون الحاجة إلى برامج وظيفية مُعلَّمة يدويًا؛ 2) تكون المفاهيم المستخلصة دقيقة وكافية، حيث يحقق OCCAM أداءً مُتَقارِبًا في تمثيل الكائنات إما في الفضاء البصري أو في الفضاء المفاهيمي الرمزي المستخلص.