تعلم اكتشاف المناطق الانتباهية متعددة الفئات لتمييز الصور متعددة العلامات

التعرف على الصور متعددة العلامات هو مهمة عملية وصعبة مقارنة بتصنيف الصور ذات العلامة الواحدة. ومع ذلك، قد تكون الأعمال السابقة غير مثلى بسبب وجود عدد كبير من اقتراحات الأشياء أو وحدات توليد المناطق الانتباهية المعقدة. في هذا البحث، نقترح إطارًا ثنائي التيار بسيطًا ولكن فعالًا للتعرف على أشياء متعددة الفئات من الصورة العالمية إلى المناطق المحلية، مشابهًا لطريقة إدراك البشر للأجسام. لسد الفجوة بين التيار العالمي والتيار المحلي، نقترح وحدة منطقة انتباهية متعددة الفئات تهدف إلى جعل عدد المناطق الانتباهية صغيرًا قدر الإمكان مع الحفاظ على تنوع هذه المناطق عاليًا قدر الإمكن. يمكن لطريقتنا أن تتعرف على أشياء متعددة الفئات بكفاءة وفعالية مع تكلفة حسابية معقولة ومع وحدة تحديد موقع المنطقة الخالية من المعلمات. فوق ثلاثة مقاييس مرجعية للتصنيف الصوري متعدد العلامات، حققنا نتائج جديدة رائدة باستخدام نموذج واحد فقط يعتمد على دلالات الصورة دون اعتماد على العلامات. بالإضافة إلى ذلك، تم إثبات فعالية الطريقة المقترحة بشكل شامل تحت عوامل مختلفة مثل استراتيجية التجميع العالمي، حجم المدخلات والهيكل الشبكي. تم توفير الكود في الرابط التالي: \url{https://github.com/gaobb/MCAR}.