التعرف على الصور متعددة العلامات باستخدام شبكات التجميع الرسمية

مهمة التعرف على الصور متعددة العلامات هي التنبؤ بمجموعة من علامات الأشياء التي تظهر في صورة. نظرًا لأن الأشياء غالبًا ما تحدث معًا في الصورة، فمن المرغوب فيه نمذجة اعتماديات العلامات لتحسين أداء التعرف. لالتقاط واستكشاف هذه الاعتمادات المهمة، نقترح نموذج تصنيف متعدد العلامات يعتمد على شبكة الإدراك الرسمية (Graph Convolutional Network - GCN). يقوم النموذج ببناء رسم بياني موجه فوق علامات الأشياء، حيث يتم تمثيل كل عقدة (علامة) بواسطة تضمين كلمات للعلامة، ويتم تعلم GCN لتخطيط هذا الرسم البياني للعلامات إلى مجموعة من تصنيفات الأشياء المترابطة. يتم تطبيق هذه المصنفات على الوصفيات المستخرجة من الصورة بواسطة شبكة فرعية أخرى، مما يتيح تدريب الشبكة بأكملها بشكل متكامل من البداية إلى النهاية. بالإضافة إلى ذلك، نقترح مخطط إعادة وزن جديد لإنشاء مصفوفة ارتباط فعالة للعلامات لتسهيل انتشار المعلومات بين العقد في GCN. أظهرت التجارب على قاعدتين بيانات للتعرف على الصور متعددة العلامات أن نهجنا يتفوق بشكل واضح على الأساليب الأخرى المتقدمة الحالية. كما كشفت تحليلات التصور أن المصنفات التي تم تعلمها بواسطة نموذجنا تحتفظ بتوپولوجيا دلالية ذات معنى.