إنشاء رسم مفاهيم مُعَلَّقٍ دون تَعْيِينٍ مكاني

تُعدّ توليد رسم البيئة (SGG) مهمة في فهم الرؤية، وتهدف إلى وصف مشهد ما على شكل رسم بياني يتكوّن من الكيانات والعلاقات بينها. تعتمد الدراسات الحالية على علامات الموضع على شكل مربعات محيطة أو أقنعة تجزئة، ما يزيد من تكاليف التصنيف ويحد من توسيع المجموعات البيانات. واعتناقًا لحقيقة أن العديد من التطبيقات لا تتطلب بيانات الموضع، نُلغي هذه الاعتمادية ونقدّم مهمة جديدة تُسمّى توليد رسم البيئة دون معلومات موضعية (LF-SGG). تهدف هذه المهمة إلى التنبؤ بInstances الكيانات والعلاقات بينها دون الحاجة إلى حساب توضيح مكاني صريح لها. ولتقييم هذه المهمة بشكل موضوعي، يلزم مقارنة الرسوم البيانية المُتنبّأ بها مع الرسوم البيانية الحقيقية (المرجعية). ونحل هذه المشكلة ذات الطبيعة NP-صعبة من خلال خوارزمية فرعية فعّالة. بالإضافة إلى ذلك، صممنا أول طريقة لـ LF-SGG تُدعى Pix2SG، باستخدام نمذجة تسلسلية تلقائية (autoregressive sequence modeling). ونُظهر فعالية طريقة العمل لدينا على ثلاث مجموعات بيانات لتوليد رسم البيئة، بالإضافة إلى مهام تطبيقية ثانوية، وهي استرجاع الصور والإجابة على الأسئلة البصرية، ونُظهر أن نهجنا يُنافس الطرق الحالية دون الاعتماد على معلومات الموضع.