مجموعة بيانات الإجابة على الأسئلة المرئية VQA

التاريخ

منذ 2 أعوام

الحجم

58.91 MB

المؤسسة

الترخيص

其他

العلامات

نموذج كبير

الفئات

أزواج الصورة والنص

الحوار البصري

مجموعة بيانات الإجابة على الأسئلة

تنزيل مجموعة البيانات رابط ماغنت مساعدة التنزيل

تأتي هذه المجموعة من البيانات من جامعة ولاية كامبيناس قاعدة المعرفة الموضوعية MO434.

مقدمة

هذا تطبيق Flask بسيط يقوم بإنشاء إجابات بناءً على صورة وأسئلة باللغة الطبيعية حول الصورة. يستخدم التطبيق نموذج التعلم العميق الذي تم تدريبه باستخدام TensorFlow خلف الكواليس.

نظرة عامة على النموذج

لقد ساهم تطوير التعلم العميق في تعزيز حل المهام المتعلقة بالتعلم المتعدد الوسائط. الإجابة على الأسئلة المرئية (VQA) هي مثال صعب للغاية، ويتطلب تفسير المشهد على مستوى عالٍ من خلال الصور ونمذجة لغة الإجابة على الأسئلة ذات الصلة. بالنظر إلى صورة وسؤال باللغة الطبيعية حول الصورة، فإن المهمة هي تقديم إجابة دقيقة باللغة الطبيعية. هذا هو نظام متكامل تم تنفيذه باستخدام Keras بهدف إنجاز هذه المهمة.

نموذج معماري مبني على الورقة الاهتمام المشترك بالسؤال الهرمي والصورة للإجابة على الأسئلة البصرية .

VQA.torrent

البذر 2التنزيل 0مكتمل 174إجمالي التنزيلات 338

VQA/
- README.md
  1.56 KB
- README.txt
  3.12 KB