HyperAIHyperAI

Command Palette

Search for a command to run...

الاستدلال من الخشنة إلى الدقيقة للإجابة على الأسئلة المرئية

Binh X. Nguyen Tuong Do Huy Tran Erman Tjiputra Quang D. Tran Anh Nguyen

الملخص

إغلاق الفجوة الدلالية بين الصورة والسؤال يُعد خطوة مهمة لتحسين دقة مهمة الإجابة على الأسئلة البصرية (VQA). ومع ذلك، يركّز معظم الطرق الحالية لـ VQA على آليات الانتباه أو العلاقات البصرية لاستنتاج الإجابة، بينما لا يتم استغلال الخصائص على المستويات الدلالية المختلفة بشكل كامل. في هذا البحث، نقدّم إطارًا جديدًا للاستنتاج لسد الفجوة بين الخصائص البصرية والمؤشرات الدلالية في مهمة VQA. تبدأ طريقتنا باستخراج الخصائص وال Predicate (العوامل التوصيفية) من الصورة والسؤال. ثم نقترح إطارًا جديدًا للاستنتاج يُمكّن من تعلّم هذه الخصائص والعوامل بشكل فعّال ومتزامن بطريقة من التفصيل الخشن إلى الدقيق. تُظهر النتائج التجريبية المكثفة على ثلاث مجموعات بيانات كبيرة لـ VQA أن النهج المقترح يحقق دقة متفوّقة مقارنةً بطرق الحالة الحالية. علاوةً على ذلك، يوفّر إطار الاستنتاج لدينا طريقة قابلة للتفسير لفهم قرارات الشبكة العصبية العميقة عند التنبؤ بالإجابة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الاستدلال من الخشنة إلى الدقيقة للإجابة على الأسئلة المرئية | مستندات | HyperAI