التدريب المسبق على النصوص مع عشرين ألف فئة للتمييز البصري ذي المفردات المفتوحة

تقترح هذه الدراسة طريقة POMP، وهي طريقة تدريب مُقدّمة (prompt pre-training) لنموذجات الرؤية واللغة. وبما أن POMP فعّالة من حيث الذاكرة والحساب، فإنها تُمكّن المُقدّمة المُدرَّبة من تجميع المعلومات الدلالية لطيف واسع من المفاهيم البصرية التي تضم أكثر من عشرين ألف فئة. وبعد التدريب المسبق، يمكن استخدام المُقدّمة ذات القدرة القوية على الانتقال مباشرة في مجموعة متنوعة من مهام التعرف البصري، بما في ذلك تصنيف الصور، والتقسيم الدلالي، والكشف عن الكائنات، لتعزيز أداء التعرف بطريقة صفرية (zero-shot). تُظهر التقييمات التجريبية أن POMP تحقق أداءً متقدماً على 21 مجموعة بيانات، مثالاً على ذلك دقة متوسطة بلغت 67.0% على 10 مجموعات تصنيف (+3.1% مقارنةً بـ CoOp)، و84.4 hIoU على مهمة التقسيم المفتوح النطاق (open-vocabulary) لبيانات Pascal VOC (+6.9 مقارنةً بـ ZSSeg). يُمكن الوصول إلى الشفرة المصدرية للدراسة من خلال الرابط التالي: https://github.com/amazon-science/prompt-pretraining.