تعلم التنوع الدلالي للتصنيف متعدد العلامات بدون تصوير سابق

تدريب نموذج شبكة عصبية لتمييز العديد من العلامات المرتبطة بصورة، بما في ذلك تحديد العلامات غير المُشاهَدة سابقًا، هو أمرٌ صعب، خاصةً بالنسبة للصور التي تُظهر العديد من العلامات الدلالية المتنوعة. رغم صعوبة هذه المهمة، إلا أنها مهمة ضرورية يجب التعامل معها لأنها تمثل العديد من الحالات الواقعية، مثل استرجاع الصور الطبيعية. نعتقد أن استخدام متجه تمثيلي واحد لتمثيل الصورة، كما هو شائع في الممارسات الحالية، ليس كافيًا لتقييم دقة العلامات ذات الصلة والمُشاهَدة سابقًا وغير المُشاهَدة سابقًا. يقدّم هذا البحث تدريب نموذج شامل للتعلم بدون أمثلة (zero-shot learning) متعدد العلامات الذي يدعم التنوع الدلالي للصور والعلامات. نقترح استخدام مصفوفة تمثيلية تحتوي على متجهات تمثيل رئيسية مدربة باستخدام دالة خسارة مخصصة. بالإضافة إلى ذلك، أثناء التدريب، نقترح زيادة وزن عينات الصور التي تظهر تنوعًا دلاليًا أعلى في دالة الخسارة لتشجيع التنوع في مصفوفة التمثيل. أظهرت التجارب الواسعة أن طريقة المقترحة لدينا تحسّن جودة النموذج بدون الأمثلة (zero-shot) في استرجاع الصور القائمة على العلامات وتحقيق أفضل النتائج الحالية (SoTA) على عدة قواعد بيانات مشتركة (NUS-Wide, COCO, Open Images).