مجموعة بيانات الإجابة على الأسئلة المرئية VQA
التاريخ
الحجم
الترخيص
其他
العلامات
تأتي هذه المجموعة من البيانات من جامعة ولاية كامبيناس قاعدة المعرفة الموضوعية MO434.
مقدمة
هذا تطبيق Flask بسيط يقوم بإنشاء إجابات بناءً على صورة وأسئلة باللغة الطبيعية حول الصورة. يستخدم التطبيق نموذج التعلم العميق الذي تم تدريبه باستخدام TensorFlow خلف الكواليس.
نظرة عامة على النموذج
لقد ساهم تطوير التعلم العميق في تعزيز حل المهام المتعلقة بالتعلم المتعدد الوسائط. الإجابة على الأسئلة المرئية (VQA) هي مثال صعب للغاية، ويتطلب تفسير المشهد على مستوى عالٍ من خلال الصور ونمذجة لغة الإجابة على الأسئلة ذات الصلة. بالنظر إلى صورة وسؤال باللغة الطبيعية حول الصورة، فإن المهمة هي تقديم إجابة دقيقة باللغة الطبيعية. هذا هو نظام متكامل تم تنفيذه باستخدام Keras بهدف إنجاز هذه المهمة.
نموذج معماري مبني على الورقة الاهتمام المشترك بالسؤال الهرمي والصورة للإجابة على الأسئلة البصرية .