استنتاج وتنفيذ البرامج للمنطق البصري

الطرق الحالية للاستدلال البصري تحاول رسم خرائط مباشرة من المدخلات إلى المخرجات باستخدام هياكل صناديق سوداء دون نمذجة العمليات الاستدلالية الكامنة بشكل صريح. نتيجة لذلك، غالباً ما تتعلم هذه النماذج الصندوق الأسود استغلال التحيزات في البيانات بدلاً من تعلم أداء الاستدلال البصري. مستوحاة من شبكات الوحدات، تقترح هذه الورقة نموذجاً للاستدلال البصري يتكون من مولد برنامج يبني تمثيلاً صريحاً للعملية الاستدلاليّة التي يجب تنفيذها، ومحرك تنفيذ يقوم بتنفيذ البرنامج الناتج لإنتاج إجابة. يتم تنفيذ كل من مولد البرنامج ومحرك التنفيذ بواسطة شبكات عصبية، ويتم تدريبهما باستخدام مزيج من الرجوع العكسي (backpropagation) وتعزيز (REINFORCE). باستخدام معيار CLEVR للاستدلال البصري، نظهر أن نموذجنا يتفوق بشكل كبير على الخطوط الأساسية القوية ويحقق تعميماً أفضل في مجموعة متنوعة من الإعدادات.