شبكات الوحدات العصبية

الإجابة على الأسئلة البصرية هي في جوهرها مركبة بطبيعتها - سؤال مثل "أين الكلب؟" يشترك في البنية الفرعية مع أسئلة مثل "ما لون الكلب؟" و "أين القط؟". تهدف هذه الورقة البحثية إلى استغلال قدرة الشبكات العميقة التمثيلية والبنية اللغوية المركبة للأسئلة بشكل متزامن. نصف إجراءً لبناء وتعلم شبكات الوحدات العصبية، والتي تتكون من مجموعات من الوحدات العصبية المشتركة في التدريب وتُركّب في شبكات عميقة للإجابة على الأسئلة. تقترب طريقتنا من تفكيك الأسئلة إلى بنياتها اللغوية الفرعية واستخدام هذه البنيات لإنشاء شبكات وحدات ديناميكية (مع مكونات قابلة لإعادة الاستخدام لاكتشاف الكلاب، تصنيف الألوان، إلخ). يتم تدريب الشبكات المركبة الناتجة بشكل مشترك. نقيم نهجنا على مجموعة بيانات صعبة لمهمة الإجابة على الأسئلة البصرية، حيث حققنا أفضل النتائج حتى الآن على كل من مجموعة بيانات VQA للصور الطبيعية ومجموعة بيانات جديدة تحتوي على أسئلة معقدة حول الأشكال مجردة.