منذ 7 أشهر

الملخص

في هذه الورقة، نتناول مشكلة اكتشاف محتويات الصور بشكل مستمر من خلال طرح أسئلة مرتبطة بالصور بشكل نشط والإجابة على هذه الأسئلة لاحقًا. المكونات الرئيسية تشمل وحدة توليد الأسئلة البصرية (VQG) ووحدة الإجابة على الأسئلة البصرية (VQA)، حيث يتم استخدام الشبكات العصبية التكرارية (RNN) والشبكات العصبية المتلافهة (CNN). بناءً على مجموعة بيانات تحتوي على صور وأسئلة وإجاباتها، يتم تدريب كلا الوحدتين في نفس الوقت، مع الفرق أن VQG تستخدم الصور كمدخلات والأسئلة المرتبطة بها كمخرجات، بينما VQA تستخدم الصور والأسئلة كمدخلات والإجابات المرتبطة بها كمخرجات. نقوم بتقييم عملية الحديث الذاتي بشكل ذاتي باستخدام خدمة Amazon Mechanical Turk، مما يظهر فعالية الطريقة المقترحة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار