شائع وغير شائع: الندرة الدلالية في التعرف على المواقف

الندرة الدلالية هي تحدي شائع في مشاكل التصنيف البصري المهيكلة؛ عندما يكون الفضاء الخرج معقدًا، فإن الغالبية العظمى من التوقعات المحتملة نادراً ما تظهر، إن ظهرت على الإطلاق، في مجموعة التدريب. يدرس هذا البحث الندرة الدلالية في مسألة التعرف على السياق، وهي مهمة إنتاج ملخصات مهيكلة لما يحدث في الصور، بما في ذلك الأنشطة والأشياء والأدوار التي تلعبها هذه الأشياء ضمن النشاط. بالنسبة لهذه المشكلة، نجد بشكل تجريبي أن معظم تركيبات الشيء-الدور نادرة، وأن النماذج الحالية الأكثر تقدمًا تتراجع بشكل كبير في هذا النظام الذي يعاني من ندرة البيانات. نتجنب العديد من هذه الأخطاء من خلال (1) تقديم دالة تركيب موتر جديدة تتعلم تقاسم الأمثلة عبر تركيبات الدور-المصدر (tensor composition function) و(2) تعزيز بياناتنا التدريبية دلاليًا باستخدام أمثلة تم جمعها تلقائيًا للنتائج النادرة باستخدام بيانات الويب. عند دمجها داخل نموذج تنبؤ مهيكل كامل يستند إلى CRF، فإن النهج القائم على الموتر يتفوق على التقنيات الحالية الأكثر تقدمًا بتحسين نسبي قدره 2.11% و4.40% في دقة الفعل والشيء-الدور الخمس الأوائل، على التوالي. إضافة 5 ملايين صورة باستخدام تقنيات التعزيز الدلالي الخاصة بنا توفر المزيد من التحسينات النسبية بنسبة 6.23% و9.57% في دقة الفعل والشيء-الدور الخمس الأوائل.