تصنيف متعدد العلامات مع قاموس مفتوح باستخدام محكّم ثنائي النمط على الخصائص البصرية-النصية المُحاذاة

في مجال رؤية الحاسوب، تعتبر مهام التعرف على العلامات المتعددة مهمةً ذات أهمية كبيرة ولها العديد من التطبيقات في العالم الحقيقي، ولكن تصنيف العلامات التي لم يتم رؤيتها من قبل لا يزال تحديًا كبيرًا. في هذا البحث، نقترح خوارزمية جديدة تُسمى "المصنف الثنائي المتماثل للوسائط" (Aligned Dual moDality ClaSsifier - ADDS)، والتي تشمل محول ثنائي الوسائط (Dual-Modal decoder - DM-decoder) مع تماثل بين الخصائص البصرية والنصية لمهام تصنيف العلامات المتعددة بمعجم مفتوح. ثم نصمم طريقة بسيطة ومعتبرة فعالة تُسمى "النقل الهرمي" (Pyramid-Forwarding) لتعزيز الأداء للمدخلات ذات الدقة العالية. بالإضافة إلى ذلك، يتم تطبيق الإشراف اللغوي الانتقائي لتعزيز أداء النموذج بشكل أكبر. أجريت تجارب واسعة النطاق على عدة مقاييس قياسية، وهي NUS-WIDE وImageNet-1k وImageNet-21k وMS-COCO، وقد أظهرت هذه التجارب أن نهجنا يتفوق بشكل كبير على الأساليب السابقة ويقدم أداءً رائدًا في تصنيف العلامات المتعددة بمعجم مفتوح، وكذلك في تصنيف العلامات المتعددة التقليدي وفي حالة متطرفة تُسمى "تصنيف علامة واحدة إلى علامات متعددة" حيث يتم اختبار النماذج التي تم تدريبها على مجموعات بيانات تحتوي على علامة واحدة (مثل ImageNet-1k وImageNet-21k) على مجموعات بيانات تحتوي على علامات متعددة (مثل MS-COCO وNUS-WIDE).