التعلم المتناقض الثنائي الشعوري بالمعنى للتصنيف متعدد التسميات للصور

استخلاص المعاني البصرية للصور بشكل فعّال وتعيين التسميات المقابلة لعدة كيانات أو خصائص في الصور الطبيعية يُعدّ تحديًا بسبب تعقيد محتوى المشاهد وتشابك الاعتماديات بين التسميات. ركّزت الدراسات الحديثة على نمذجة علاقات التسميات باستخدام الرسوم البيانية، وفهم مناطق الكيانات باستخدام خرائط التفعيل الفئوي (CAM). ومع ذلك، فإن هذه الطرق تتجاهل العلاقات المعقدة الداخليّة والخارجية بين الخصائص المعنوية المحددة، كما أن CAM عرضة لإنتاج معلومات ضوضائية. ولحل هذه المشكلة، نقترح إطارًا جديدًا للتعلم المتناقض المُدرك للمعنى، يدمج التعلم المتناقض بين العينات (SSCL) والتعلم المتناقض بين النموذج والعينة (PSCL). بشكل خاص، نستخدم تعلم التمثيل المُدرك للمعنى لاستخلاص ميزات محلية تمييزية مرتبطة بالفئة، وبناء نماذج فئوية (بروتوتايبس). ثم، استنادًا إلى SSCL، نجمّع تمثيلات بصرية على مستوى التسمية لنفس الفئة معًا، ونفصل الميزات المنتمية إلى فئات مختلفة. وفي الوقت نفسه، نُنشئ وحدة PSCL جديدة لتقليل المسافة بين العينات الإيجابية والنماذج الفئوية، ودفع العينات السلبية بعيدًا عن النماذج الفئوية المقابلة. وأخيرًا، يتم التقاط الميزات المميزة على مستوى التسمية المرتبطة بمحتوى الصورة بدقة من خلال التدريب المشترك الثلاثي المذكور أعلاه. أظهرت التجارب على خمسة مجموعات بيانات كبيرة وصعبة من الناحية العامة أن الطريقة المقترحة فعّالة، وتتفوّق على الطرق الرائدة في مجالها. تم نشر الشفرة والمواد المكملة على: https://github.com/yu-gi-oh-leilei/SADCL.