HyperAIHyperAI
منذ 17 أيام

VLC-BERT: الإجابة على الأسئلة البصرية باستخدام المعرفة الواقعية المُحتَوَاة على السياق

Sahithya Ravi, Aditya Chinchure, Leonid Sigal, Renjie Liao, Vered Shwartz
VLC-BERT: الإجابة على الأسئلة البصرية باستخدام المعرفة الواقعية المُحتَوَاة على السياق
الملخص

لقد ازداد الاهتمام بشكل متزايد في حل مهام الإجابة على الأسئلة البصرية (VQA) التي تتطلب من النموذج التفكير لما وراء المحتوى الموجود في الصورة. وفي هذا العمل، نركز على الأسئلة التي تتطلب استدلالًا بالمعارف الشائعة. على عكس الطرق السابقة التي تُدخل معرفة من قواعد بيانات ثابتة، نستكشف دمج المعرفة السياقية باستخدام نموذج المعرفة المعروف بـ "Commonsense Transformer" (COMET)، وهو نموذج معرفة موجود تم تدريبه على قواعد بيانات معرفية تم جمعها يدويًا من قبل البشر. نقترح طريقة لتكوين وتحديد وترميز معرفة خارجية عن المعرفة الشائعة مع الإشارات البصرية والنصية في نموذج مُدرّب مسبقًا جديد يُسمى "VLC-BERT" (نماذج الرؤية واللغة والمعرفة المشتركة). ومن خلال تقييمنا على مجموعتي بيانات OK-VQA وA-OKVQA اللتين تتطلبان معرفة كثيفة، نُظهر أن VLC-BERT قادر على التفوق على النماذج الحالية التي تستخدم قواعد بيانات معرفية ثابتة. علاوة على ذلك، من خلال تحليل مفصل، نشرح أي الأسئلة تستفيد، وأيها لا تستفيد، من المعرفة المشتركة السياقية المستمدة من COMET.