الأسئلة وال الأجوبة العصبية-الرمزية: فصل التفكير عن فهم الرؤية واللغة

نجمع بين فكرتين قويتين: التعلم العميق للتمثيلات للاعتراف البصري وفهم اللغة، والتنفيذ الرمزي للبرامج للمنطق. نظام الإجابة على الأسئلة البصرية العصبي-الرمزي (NS-VQA) الخاص بنا يقوم أولاً باستعادة تمثيل مشهد هيكلي من الصورة وأثر برنامج من السؤال. ثم ينفذ البرنامج على تمثيل المشهد للحصول على إجابة. دمج الهيكل الرمزي كمعارف مسبقة يقدم ثلاثة مزايا فريدة. أولاً، تنفيذ البرامج في الفضاء الرمزي أكثر صلابة تجاه أثر البرامج الطويل؛ يمكن لنموذجنا حل المهام المنطقية المعقدة بشكل أفضل، حيث حقق دقة تبلغ 99.8% على مجموعة بيانات CLEVR. ثانياً، النموذج أكثر كفاءة في استخدام البيانات والذاكرة: يحقق أداءً جيدًا بعد التعلم على عدد صغير من البيانات التدريبية؛ كما يمكنه تشفير الصورة في تمثيل مضغوط، مما يتطلب تخزينًا أقل من الطرق الحالية للإجابة على الأسئلة دون اتصال. ثالثاً، تنفيذ البرنامج الرمزي يوفر شفافية كاملة للمعالجة المنطقية؛ وبالتالي نتمكن من تفسير وتشخيص كل خطوة في التنفيذ.