HyperAIHyperAI
منذ 2 أشهر

الانتباه من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل لوصف الصور ورد الإجابة على الأسئلة البصرية

Peter Anderson; Xiaodong He; Chris Buehler; Damien Teney; Mark Johnson; Stephen Gould; Lei Zhang
الانتباه من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل لوصف الصور ورد الإجابة على الأسئلة البصرية
الملخص

تم استخدام آليات الانتباه البصري من الأعلى إلى الأسفل بشكل واسع في تسمية الصور وتقديم إجابات على الأسئلة البصرية (VQA) لتمكين فهم أعمق للصور من خلال التحليل الدقيق وحتى خطوات متعددة من الاستدلال. في هذا البحث، نقترح آلية انتباه مركبة من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل تتيح حساب الانتباه على مستوى الكائنات وأجزاء الصورة الأخرى ذات الأهمية البارزة. وهذا يعتبر الأساس الطبيعي لاعتبار الانتباه. ضمن نهجنا، تقوم الآلية من الأسفل إلى الأعلى (المبنية على Faster R-CNN) باقتراح أجزاء الصورة، كل منها مع متجه خصائص مرتبط، بينما تحدد الآلية من الأعلى إلى الأسفل وزن الخصائص. عند تطبيق هذا النهج على تسمية الصور، فإن نتائجنا على خادم الاختبار MSCOCO تحدد حالة جديدة رائدة للمهمة، حيث حققنا درجات CIDEr / SPICE / BLEU-4 قدرها 117.9، 21.5 و36.9 على التوالي. لإثبات مدى نطاق التطبيق الواسع للطريقة، عند تطبيق نفس النهج على VQA حصلنا على المركز الأول في تحدي VQA لعام 2017.

الانتباه من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل لوصف الصور ورد الإجابة على الأسئلة البصرية | أحدث الأوراق البحثية | HyperAI