العناصر العصبية: تحليل الرسم البياني للمشهد مع السياق العالمي

نقوم بدراسة مشكلة إنتاج تمثيلات الرسوم البيانية المهيكلة للمشاهد البصرية. يحلل عملنا دور النماذج: وهي الأطراف الفرعية التي تظهر بشكل متكرر في رسوم المشاهد. نقدم رؤى كمية جديدة حول هذه الأطراف الفرعية المتكررة في مجموعة بيانات Visual Genome (الجينوم البصري). تظهر تحليلاتنا أن علامات الأشياء تكون ذات تنبؤ عالي بعلامات العلاقات، ولكن العكس ليس صحيحًا. كما وجدنا أن هناك أنماطًا تتكرر حتى في الأطراف الفرعية الأكبر: حيث تحتوي أكثر من 50% من الرسوم على نماذج تتضمن علاقات لا تقل عن اثنتين. يحفز تحليلنا على وضع خط أساس جديد: بالنظر إلى اكتشافات الأشياء، يتم التنبؤ بالعلاقة الأكثر شيوعًا بين أزواج الأشياء ذات العلامات المعطاة، كما هو ملاحظ في مجموعة التدريب. يحسن هذا الخط الأساسي على الحالة السابقة للتقنية بمتوسط نسبته 3.6% من التحسين النسبي عبر إعدادات التقييم المختلفة. ثم نقدم شبكات النماذج المتراكمة، وهي هندسة جديدة مصممة لالتقاط النماذج من الدرجة العليا في رسوم المشاهد، مما يؤدي إلى تحسين إضافي بمتوسط 7.1% من الربح النسبي فوق خط الأساس القوي لدينا. يمكن الحصول على شفرتنا البرمجية من github.com/rowanz/neural-motifs.