KnowZRel: استرجاع علاقة صفرية قائمة على المعرفة الواقعية للإ génération المعمم لرسومات المشهد
تمثّل مخطط المشهد تمثيلًا أساسيًا للصور في التفكير البصري. إن قابلية التعميم لطرق توليد مخطط المشهد (SGG) أمر بالغ الأهمية لضمان التفكير الموثوق والقابلية التطبيقية في العالم الحقيقي. ومع ذلك، فإن مجموعات التدريب غير المتوازنة تحد من هذه القابلية، حيث تُقلّل من تمثيل العلاقات البصرية ذات المعنى. تواجه الطرق الحالية لـ SGG التي تعتمد على مصادر معرفة خارجية قيودًا ناتجة عن هذه عدم التوازن أو التغطية المحدودة للعلاقات، مما يؤثر سلبًا على قدرتها على التفكير والتمييز العام. نقترح منهجًا جديدًا نيو سيمبوليكيًا يدمج كشف الكائنات القائم على البيانات مع تحسين الكائنات القائم على رسم معرفة متعددة المصادر واسترجاع العلاقات صفرية المعرفة، مع التأكيد على التآزر المترابط بشكل مرن بين المكونات العصبية والرمزية. يُعالج هذا التكامل القيود الناتجة عن مجموعات التدريب غير المتوازنة في توليد مخططات المشهد، ويتيح التنبؤ الفعّال بالعلاقات البصرية غير المرئية. يتم كشف الكائنات باستخدام شبكة عصبية عميقة قائمة على المناطق، ثم يتم تحسينها بناءً على التشابه المكاني والهيكلي، يليه استرجاع العلاقات البصرية الثنائية باستخدام رسم معرفة متعدد المصادر. تُزال العلاقات البصرية الزائدة وغير ذات الصلة بناءً على تشابه تسميات العلاقات وتمثيلات العقد. أخيرًا، تُربط العلاقات البصرية ببعضها البعض لتوليد مخطط المشهد. يجمع رسم المعرفة المتعدد المصادر المستخدم مصادر معرفية متنوعة، مما يوفر معرفة شائعة غنية حول الكائنات وتفاعلاتها في العالم. وقد أظهرت طريقة التقييم باستخدام مجموعة بيانات Visual Genome القياسية ومقاييس الاسترجاع صفر المعرفة (zR@K) تحسنًا بنسبة 59.96% مقارنة بالطرق الحالية الأفضل، مما يبرز فعاليتها في توليد مخططات المشهد العامة. كما أدى خطوة تحسين الكائنات إلى تحسين أداء كشف الكائنات بنسبة 57.1%. وتأكيدًا على قابلية التعميم عبر المجموعات، أجري تقييم إضافي باستخدام مجموعة بيانات GQA. كما قارنا مصادر معرفة مختلفة ونماذج تمثيلات مختلفة لتحديد التجميع الأمثل للطرق المعرفية صفرية المعرفة في SGG. يُمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/jaleedkhan/zsrr-sgg.