HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل لوصف الصور ورد الإجابة على الأسئلة البصرية

Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang

الملخص

تم استخدام آليات الانتباه البصري من الأعلى إلى الأسفل بشكل واسع في تسمية الصور وتقديم إجابات على الأسئلة البصرية (VQA) لتمكين فهم أعمق للصور من خلال التحليل الدقيق وحتى خطوات متعددة من الاستدلال. في هذا البحث، نقترح آلية انتباه مركبة من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل تتيح حساب الانتباه على مستوى الكائنات وأجزاء الصورة الأخرى ذات الأهمية البارزة. وهذا يعتبر الأساس الطبيعي لاعتبار الانتباه. ضمن نهجنا، تقوم الآلية من الأسفل إلى الأعلى (المبنية على Faster R-CNN) باقتراح أجزاء الصورة، كل منها مع متجه خصائص مرتبط، بينما تحدد الآلية من الأعلى إلى الأسفل وزن الخصائص. عند تطبيق هذا النهج على تسمية الصور، فإن نتائجنا على خادم الاختبار MSCOCO تحدد حالة جديدة رائدة للمهمة، حيث حققنا درجات CIDEr / SPICE / BLEU-4 قدرها 117.9، 21.5 و36.9 على التوالي. لإثبات مدى نطاق التطبيق الواسع للطريقة، عند تطبيق نفس النهج على VQA حصلنا على المركز الأول في تحدي VQA لعام 2017.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp