التعامل مع التحديات في توليد رسومات المشهد باستخدام التفاعلات من المحلي إلى العام

في هذه الدراسة، نسعى إلى اكتساب رؤى جديدة حول التحديات الجوهرية المتمثلة في مهمة توليد رسم المشهد (SGG). تشير التحليل الكمي والنوعي لمجموعة بيانات Visual Genome إلى ما يلي: 1) الغموض: حتى عندما يحتوي العلاقة بين الكيانات على نفس الكيان (أو الفعل)، فقد لا تكون هذه العلاقات متشابهة بصريًا أو دلاليًا؛ 2) عدم التماثل: وعلى الرغم من أن طبيعة العلاقة تحمل طابعًا اتجاهيًا، إلا أن هذه الخاصية لم تُعالج بشكل كافٍ في الدراسات السابقة؛ 3) السياقات من الرتبة العليا: يمكن أن يسهم استغلال هوية عناصر الرسم البياني المحددة في توليد رسم مشهد دقيق. مستلهمين من هذا التحليل، قمنا بتصميم إطار عمل جديد لـ SGG يُسمى الشبكات التفاعلية المحلية-العامة (LOGIN). من الناحية المحلية، يتم سحب الجوهر من التفاعل بين ثلاث كيانات: الفاعل، والمرجع، والخلفية، مع دمج الوعي بالاتجاه داخل الشبكة من خلال تقييد ترتيب المدخلات بشكل صريح للفاعل والمرجع. من الناحية العالمية، يتم تشفير السياقات بين كل مكونات الرسم البياني (أي العقد والحواف). أخيرًا، تُستخدم دالة فقدان "الجذب والانفصال" (Attract & Repel loss) لضبط توزيع متجهات الفعل (predicate embeddings). وبتصميمه، يمكّن إطار العمل من توقع رسم المشهد بطريقة من الأسفل إلى الأعلى، مع الاستفادة من التكامل المحتمل بين العناصر. ولقياس مدى وعي LOGIN بالاتجاه في العلاقات، تم اقتراح مهمة تشخيصية جديدة تُسمى تصنيف العلاقة ثنائية الاتجاه (BRC). تُظهر النتائج التجريبية أن LOGIN يتمكن من التمييز بين الاتجاهات العلاقة بشكل أفضل من الطرق الحالية (في مهمة BRC)، في حين يحقق أداءً متقدمًا على مستوى الحالة الحالية (state-of-the-art) في معيار Visual Genome (في مهمة SGG).