KRISP: دمج المعرفة الضمنية والمعرفة الرمزية للحصول على إجابة مبنية على المعرفة في المجال المفتوح

أحد أكثر أنواع الأسئلة تحدّياً في المقابلات البصرية للأسئلة (VQA) هو النوع الذي يتطلب معرفة خارجية غير موجودة في الصورة. في هذا العمل، ندرس المعرفة في المجال المفتوح، وهي الحالة التي لا تُزوَّد فيها المعرفة اللازمة لتقديم الإجابة، سواء أثناء التدريب أو أثناء الاختبار. نستثمر نوعين من تمثيلات المعرفة والاستدلال: الأول، المعرفة الضمنية التي يمكن تعلّمها بكفاءة من بيانات التدريب غير المراقبة والبيانات المراقبة باستخدام نماذج المُحَوِّل (Transformer). والثاني، المعرفة الصريحة والرمزية المُشَكَّلة في قواعد المعرفة. يعتمد نهجنا على دمج كلا النوعين – باستغلال القدرة القوية على الاستدلال الضمني للنماذج القائمة على المُحَوِّل في توقع الإجابة، ودمج التمثيلات الرمزية المستمدة من رسم معرفي (Knowledge Graph)، مع الحفاظ دائمًا على معانيها الصريحة دون فقدانها في تمثيلات ضمنية. ندمج مصادر متنوعة للمعرفة لتغطية تنوع المعرفة الضرورية لحل الأسئلة القائمة على المعرفة. نُظهر أن نهجنا، KRISP (الاستدلال المعرفي باستخدام التمثيلات الضمنية والصريحة)، يتفوّق بشكل كبير على أفضل النماذج الحالية على مجموعة OK-VQA، وهي أكبر مجموعة متاحة لاختبار المقابلات البصرية للأسئلة القائمة على المعرفة في المجال المفتوح. كما نُظهر من خلال تحليلات واسعة أن نموذجنا يستفيد بنجاح من قدرة الاستدلال الضمني، لكن الوحدة الصريحة للإجابة التي تربط رسم المعرفة بشكل صريح بمجموعة كلمات الإجابة هي العنصر الحاسم في أداء طريقة العمل، كما أنها تُظهر قدرة على التعميم على الإجابات النادرة.