تحسين اكتشاف العلاقات البصرية باستخدام خرائط العمق

تستند طرق الكشف عن العلاقات البصرية على المعلومات المستخرجة من الصور RGB مثل الصناديق الحدودية ثنائية الأبعاد، خرائط الميزات، واحتمالات الفئات المتوقعة. نعتقد أن خرائط العمق يمكن أن توفر معلومات قيمة إضافية حول علاقات الأشياء، مثل المساعدة في اكتشاف العلاقات المكانية فقط، مثل الوقوف خلف شيء ما، ولكن أيضًا العلاقات غير المكانية، مثل حمل شيء ما. في هذا العمل، ندرس تأثير استخدام ميزات الأشياء المختلفة مع التركيز على خرائط العمق. لتمكين هذه الدراسة، نطلق مجموعة بيانات جديدة صناعية لخرائط العمق تسمى VG-Depth كامتداد لمجموعة بيانات Visual Genome (VG). كما نلاحظ أنه بالنظر إلى التوزيع غير المتوازن للغاية للعلاقات في VG، فإن مقاييس التقييم النموذجية للكشف عن العلاقات البصرية لا تستطيع كشف تحسينات العلاقات التي تمثل بشكل ضئيل. لحل هذه المشكلة، نقترح استخدام مقياس إضافي يُدعى Macro Recall@K ونظهر أدائه المتميز على VG. أخيرًا، تؤكد تجاربنا أن بإمكاننا تحسين أداء الكشف عن العلاقات البصرية بنسبة تصل إلى 8% من خلال الاستخدام الفعال لخرائط العمق ضمن إطار بسيط ومعتدل التنافس.