DeViSE: نموذج تضمين بصري-معنوي عميق

تُعاني أنظمة التعرف البصري الحديثة غالبًا من قيود تتعلق بقدرتها على التوسع لعدد كبير من فئات الكائنات. ويعود جزء من هذه القيود إلى الصعوبة المتزايدة في جمع بيانات تدريب كافية على شكل صور مُعلَّمة معًا مع زيادة عدد فئات الكائنات. وحلٌّ ممكن هو الاستفادة من بيانات من مصادر أخرى — مثل البيانات النصية — سواءً لتدريب النماذج البصرية أو لتقيد تنبؤاتها. في هذا البحث، نقدم نموذجًا جديدًا عميقًا للإدراج البصري-الدلالِي، تم تدريبه على تحديد الكائنات البصرية باستخدام بيانات صور مُعلَّمة فضلاً عن معلومات دلالية مستمدة من نصوص غير مُعلَّمة. ونُظهر أن هذا النموذج يُحقق أداءً يُنافس أفضل النماذج الحالية في تحدّي التعرف على الكائنات على صعيد ImageNet الذي يضم 1000 فئة، مع إجراء أخطاء أكثر منطقية دلاليًا، كما نُظهر أن المعلومات الدلالية يمكن استغلالها لتقديم تنبؤات حول عشرات الآلاف من العلامات المرتبطة بالصور لم تُرَ خلال التدريب. وتحسّن المعرفة الدلالية هذه التنبؤات الصفرية (zero-shot) بنسبة تصل إلى 65%، مما يؤدي إلى معدلات نجاح تصل إلى 10% عبر آلاف العلامات الجديدة التي لم تُرَ قط من قبل النموذج البصري.