HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج انتباه ديناميكي مركّز لأسئلة الإجابة البصرية

Ilija Ilievski Shuicheng Yan Jiashi Feng

الملخص

تثير مشاكل الإجابة على الأسئلة المرئية (VQA) اهتمامًا متزايدًا من عدة تخصصات بحثية. حل هذه المشاكل يتطلب تقنيات من مجال الرؤية الحاسوبية لفهم المحتوى البصري للصورة أو الفيديو المعروض، بالإضافة إلى تقنيات معالجة اللغة الطبيعية لفهم دلالات السؤال وإنتاج الإجابات. فيما يتعلق بنمذجة المحتوى البصري، فإن معظم الطرق الحالية في VQA تتبنى استراتيجية استخراج الخصائص العالمية من الصورة أو الفيديو، مما يؤدي حتمًا إلى فشل في التقاط المعلومات الدقيقة مثل التكوين المكاني لأكثر من كائن واحد. استخراج الخصائص من المناطق التي تم إنشاؤها تلقائيًا -- كما يفعل بعض طرق التعرف على الصور القائمة على المناطق -- لا يمكن أن يحل هذا المشكلة بشكل جوهري وقد يُدخل بعض الخصائص غير ذات الصلة والغزيرة بالسؤال. في هذا العمل، نقترح نموذج جديد للانتباه الديناميكي المركّز (FDA) لتوفير تمثيل أفضل للمحتوى البصري متوافق مع الأسئلة المقترحة. واعيًا بالمفردات الرئيسية في السؤال، يستخدم FDA كاشف أشياء جاهزًا لتحديد المناطق الهامة ويقوم بدمج المعلومات من هذه المناطق والخصائص العالمية عبر وحدة LSTM. يتم بعد ذلك دمج هذه التمثيلات المحركة بالسؤال مع تمثيل السؤال نفسه وإدخالها إلى وحدة الاستدلال لإنتاج الإجابات. تظهر التقييمات الواسعة على مجموعة بيانات معيارية كبيرة الحجم، VQA، بشكل واضح الأداء المتفوق لـ FDA على الخطوط الأساسية المعترف بها جيدًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp