HyperAIHyperAI

Command Palette

Search for a command to run...

VLC-BERT: الإجابة على الأسئلة البصرية باستخدام المعرفة الواقعية المُحتَوَاة على السياق

Sahithya Ravi Aditya Chinchure Leonid Sigal Renjie Liao Vered Shwartz

الملخص

لقد ازداد الاهتمام بشكل متزايد في حل مهام الإجابة على الأسئلة البصرية (VQA) التي تتطلب من النموذج التفكير لما وراء المحتوى الموجود في الصورة. وفي هذا العمل، نركز على الأسئلة التي تتطلب استدلالًا بالمعارف الشائعة. على عكس الطرق السابقة التي تُدخل معرفة من قواعد بيانات ثابتة، نستكشف دمج المعرفة السياقية باستخدام نموذج المعرفة المعروف بـ "Commonsense Transformer" (COMET)، وهو نموذج معرفة موجود تم تدريبه على قواعد بيانات معرفية تم جمعها يدويًا من قبل البشر. نقترح طريقة لتكوين وتحديد وترميز معرفة خارجية عن المعرفة الشائعة مع الإشارات البصرية والنصية في نموذج مُدرّب مسبقًا جديد يُسمى "VLC-BERT" (نماذج الرؤية واللغة والمعرفة المشتركة). ومن خلال تقييمنا على مجموعتي بيانات OK-VQA وA-OKVQA اللتين تتطلبان معرفة كثيفة، نُظهر أن VLC-BERT قادر على التفوق على النماذج الحالية التي تستخدم قواعد بيانات معرفية ثابتة. علاوة على ذلك، من خلال تحليل مفصل، نشرح أي الأسئلة تستفيد، وأيها لا تستفيد، من المعرفة المشتركة السياقية المستمدة من COMET.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp