HyperAIHyperAI

Command Palette

Search for a command to run...

التعليق على الصور والإجابة على الأسئلة البصرية بناءً على السمات والمعرفة الخارجية

Qi Wu Chunhua Shen Peng Wang Anthony Dick Anton van den Hengel

الملخص

حققت العديد من التقدمات الحديثة في مشاكل التحويل من الصور إلى اللغة من خلال الجمع بين شبكات العصبونات المتشابكة (CNNs) وشبكات العصبونات المتكررة (RNNs). هذا النهج لا يمثل بشكل صريح المفاهيم الدلالية العليا، بل يسعى للتقدم مباشرة من خصائص الصورة إلى النص. في هذه الورقة البحثية، نقترح أولاً طريقة لدمج المفاهيم الدلالية العليا في النهج الناجح لـ CNN-RNN، ونظهر أن هذا يؤدي إلى تحسين كبير على أفضل ما تم تحقيقه حتى الآن في كل من إضافة التعليقات على الصور والرد على الأسئلة البصرية. كما نوضح أن نفس الآلية يمكن استخدامها لدمج المعرفة الخارجية، والتي تعد مهمة للغاية للرد على الأسئلة البصرية المعقدة. بوجه خاص، قمنا بتصميم نموذج للأسئلة البصرية يستخدم تمثيلاً داخلياً لمحتوى الصورة مع المعلومات المستخرجة من قاعدة بيانات عامة للمعرفة للإجابة على مجموعة واسعة من الأسئلة القائمة على الصور. ويسمح هذا النموذج خاصة بطرح أسئلة حول محتوى الصورة حتى عندما لا تحتوي الصورة نفسها على إجابة كاملة. وقد حقق نموذجنا النهائي أفضل النتائج المبلغ عنها في كل من إضافة التعليقات على الصور والرد على الأسئلة البصرية في عدة مجموعات بيانات معيارية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp