الانتباه من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل لوصف الصور ورد الإجابة على الأسئلة البصرية

تم استخدام آليات الانتباه البصري من الأعلى إلى الأسفل بشكل واسع في تسمية الصور وتقديم إجابات على الأسئلة البصرية (VQA) لتمكين فهم أعمق للصور من خلال التحليل الدقيق وحتى خطوات متعددة من الاستدلال. في هذا البحث، نقترح آلية انتباه مركبة من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل تتيح حساب الانتباه على مستوى الكائنات وأجزاء الصورة الأخرى ذات الأهمية البارزة. وهذا يعتبر الأساس الطبيعي لاعتبار الانتباه. ضمن نهجنا، تقوم الآلية من الأسفل إلى الأعلى (المبنية على Faster R-CNN) باقتراح أجزاء الصورة، كل منها مع متجه خصائص مرتبط، بينما تحدد الآلية من الأعلى إلى الأسفل وزن الخصائص. عند تطبيق هذا النهج على تسمية الصور، فإن نتائجنا على خادم الاختبار MSCOCO تحدد حالة جديدة رائدة للمهمة، حيث حققنا درجات CIDEr / SPICE / BLEU-4 قدرها 117.9، 21.5 و36.9 على التوالي. لإثبات مدى نطاق التطبيق الواسع للطريقة، عند تطبيق نفس النهج على VQA حصلنا على المركز الأول في تحدي VQA لعام 2017.