التعلم بدون أمثلة متعدد العلامات استنادًا إلى المناطق التمييزية

التعلم الصفر-الصورة متعدد العلامات (ZSL) هو نظير أكثر واقعية للتعلم الصفر-الصورة ذو العلامة الواحدة المعتاد، حيث يمكن أن توجد عدة أشياء في صورة طبيعية. ومع ذلك، فإن وجود العديد من الأشياء يعقد عملية الاستدلال ويحتاج إلى معالجة محددة للمناطق لميزات الصور لحفظ مؤشراتها السياقية. نلاحظ أن أفضل طريقة موجودة حاليًا للتعلم الصفر-الصورة متعدد العلامات تتبع نهجًا مشتركًا نحو الانتباه إلى ميزات المناطق باستخدام مجموعة مشتركة من خرائط الانتباه لكل الفئات. يؤدي مثل هذه الخرائط المشتركة إلى انتباه متناثر، مما لا يركز بشكل تمييزي على المواقع ذات الصلة عند زيادة عدد الفئات. بالإضافة إلى ذلك، فإن رسم خرائط الميزات المرئية المحصلة فضائيًا إلى معاني الفئات يؤدي إلى تشابك بين ميزات الفئات المختلفة، مما يعيق التصنيف. هنا، نقترح نهجًا بديلًا نحو التصنيف الصفر-الصورة متعدد العلامات الذي يحافظ على قابلية التمييز القائم على المنطقة. يتبع هذا النهج الحفاظ على الدقة المكانية لحفظ خصائص المستوى الإقليمي واستخدام وحدة انتباه ثنائية المستوى (BiAM) لتغذية الميزات عبر دمج المعلومات السياقية للمنطقة والمشهد. ثم يتم رسم خرائط للميزات الغنية على مستوى المنطقة إلى معاني الفئات ويتم تجميع توقعاتها فقط على المستوى المكاني للحصول على توقعات على مستوى الصورة، مما يحافظ على عدم تشابك ميزات الفئات المتعددة. يصل نهجنا إلى حالة جديدة من فن الدولة في مقاييس التعلم الصفر-الصورة متعدد العلامات الكبيرة الحجم: NUS-WIDE و Open Images. وعلى NUS-WIDE، حقق نهجنا زيادة مطلقة بنسبة 6.9% في mAP للتعلم الصفر-الصورة مقارنة بأفضل النتائج المنشورة.注释:在阿拉伯语中,“state of the art”通常被翻译为“فن الدولة”或“أعلى مستويات التقنية”。在这里,我选择了“فن الدولة”以保持正式和学术的语气。其他术语如“multi-label zero-shot learning (ZSL)”、“bi-level attention module (BiAM)”等都直接翻译并保留了英文缩写,以确保专业性和信息完整性。