HyperAIHyperAI

Command Palette

Search for a command to run...

في دفاع عن الميزات الشبكية لاستجابة الأسئلة البصرية

Huaizu Jiang Ishan Misra Marcus Rohrbach Erik Learned-Miller Xinlei Chen

الملخص

تم تعميم ما يُعرف بـ"الانتباه من الأسفل إلى الأعلى" (bottom-up attention)، حيث أصبحت الميزات البصرية المستندة إلى مربعات الحدود (أو المناطق) هي المعيار الفعلي في المهام البصرية واللغوية مثل الإجابة على الأسئلة البصرية (VQA)، وتقدّم أداءً أفضل بكثير من الميزات التقليدية القائمة على الشبكة (grid-based convolutional features). ومع ذلك، لا يزال غير واضح ما إذا كانت المزايا التي تتمتع بها المناطق (مثل دقة التحديد المكاني الأفضل) هي الأسباب الرئيسية لنجاح نهج الانتباه من الأسفل إلى الأعلى. في هذه الورقة، نعيد النظر في استخدام ميزات الشبكة (grid features) في مهام VQA، ونجد أنها يمكن أن تعمل بشكل مدهش جدًا — حيث تُنفذ بسرعة تزيد بأكثر من مرتبة واحدة مع الحفاظ على نفس الدقة (مثلاً، إذا تم تدريبها مسبقًا بطريقة مشابهة). من خلال تجارب واسعة النطاق، نؤكد أن هذه الملاحظة صحيحة عبر نماذج VQA المختلفة، والبيانات المتنوعة، كما تُظهر أداءً قويًا جدًا في مهام أخرى مثل وصف الصور (image captioning). وبما أن ميزات الشبكة تبسط عملية تصميم النموذج وتدريبه، فإنها تتيح لنا تدريب النماذج بشكل منتهٍ (end-to-end) واستخدام تصميمات شبكة أكثر مرونة. نحن نتعلم نماذج VQA بشكل منتهٍ، بدءًا من الصور (البكسلات) مباشرةً إلى الإجابات، ونُظهر أن أداءً قويًا يمكن تحقيقه دون الحاجة إلى أي تسميات مناطق (region annotations) أثناء التدريب المسبق. نأمل أن تساهم نتائجنا في تعميق الفهم العلمي وتحسين التطبيق العملي لمهام VQA. سيتم إتاحة الكود والميزات للاستخدام العام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp