HyperAIHyperAI
منذ 12 أيام

NeuSyRE: إطار للفهم والاستنتاج البصري العصبي-الرمزي يعتمد على تثري الرسوم البيانية للمناظر

{Edward Curry, John Breslin, M. Jaleed Khan}
الملخص

تُعدّ النماذج الهجينة العصبية-الرمزية أمرًا لا مفر منه لتحقيق فهم وتحليل عالي المستوى وسلس للمشاهد البصرية. يُعدّ توليد رسم المشهد (SGG) منهجية تمثيل رمزية للصور تعتمد على الشبكات العصبية العميقة (DNN)، حيث يُستهدف توقع الكائنات وصفاتها والعلاقات البصرية الزوجية في الصور لإنشاء رسومات المشهد، والتي تُستخدم في المهام اللاحقة المتعلقة بالاستدلال البصري. تعتمد مجموعات البيانات التدريبية المستمدة من جهود جماعية في SGG على توازن غير متساوٍ، مما يؤدي إلى نتائج متحيزة في SGG. ونظرًا لعدد هائل من الرباعيات الممكنة، يُصبح جمع عينات تدريب كافية لكل مفهوم بصري أو علاقة أمرًا صعبًا. ولحل هذه التحديات، نقترح تعزيز النهج التقليدي القائم على البيانات في SGG باستخدام المعرفة المشتركة (common sense knowledge) لتعزيز التعبيرية والاستقلالية في الفهم والاستدلال البصري. ونقدّم إطارًا مرنًا للتعلم والتحليل البصري الهجين العصبي-الرمزي، يعتمد على مسار مبني على DNN للكشف عن الكائنات وتقدير العلاقات الزوجية متعددة الوسائط لإنشاء رسومات المشهد، ويستفيد من المعرفة المشتركة المخزنة في مجموعات معرفية متنوعة (heterogenous knowledge graphs) لتحسين وتنويع رسومات المشهد وتحسين الاستدلال اللاحق. أجرينا تقييمًا شاملاً على عدة مجموعات بيانات قياسية، منها Visual Genome وMicrosoft COCO، حيث تفوق النهج المقترح على أحدث الأساليب في SGG من حيث مقاييس استرجاع العلاقات، أي Recall@K وmean Recall@K، كما تفوق على أحدث الطرق القائمة على رسومات المشهد في توليد الوصف (image captioning) من حيث مقاييس SPICE وCIDEr، مع الحفاظ على أداء مماثل في مقاييس BLEU وROGUE وMETEOR. وقد أظهرت النتائج النوعية أن التحسينات الناتجة عن التغذية بالمعرفة المشتركة أدى إلى تحسين التعبيرية في رسومات المشهد، مما مكّن من توليد وصفات أكثر طبيعية وذات معنى باستخدام هذه الرسومات. تؤكد نتائجنا فعالية إثراء رسومات المشهد بالمعرفة المشتركة من خلال مجموعات المعرفة المتنوعة. وتوفر هذه الدراسة أساسًا لبحوث مستقبلية في مجال الفهم والاستدلال البصري المدعوم بالمعرفة.

NeuSyRE: إطار للفهم والاستنتاج البصري العصبي-الرمزي يعتمد على تثري الرسوم البيانية للمناظر | أحدث الأوراق البحثية | HyperAI