HyperAIHyperAI
منذ 16 أيام

التدريب المسبق على النصوص مع عشرين ألف فئة للتمييز البصري ذي المفردات المفتوحة

Shuhuai Ren, Aston Zhang, Yi Zhu, Shuai Zhang, Shuai Zheng, Mu Li, Alex Smola, Xu Sun
التدريب المسبق على النصوص مع عشرين ألف فئة للتمييز البصري ذي المفردات المفتوحة
الملخص

تقترح هذه الدراسة طريقة POMP، وهي طريقة تدريب مُقدّمة (prompt pre-training) لنموذجات الرؤية واللغة. وبما أن POMP فعّالة من حيث الذاكرة والحساب، فإنها تُمكّن المُقدّمة المُدرَّبة من تجميع المعلومات الدلالية لطيف واسع من المفاهيم البصرية التي تضم أكثر من عشرين ألف فئة. وبعد التدريب المسبق، يمكن استخدام المُقدّمة ذات القدرة القوية على الانتقال مباشرة في مجموعة متنوعة من مهام التعرف البصري، بما في ذلك تصنيف الصور، والتقسيم الدلالي، والكشف عن الكائنات، لتعزيز أداء التعرف بطريقة صفرية (zero-shot). تُظهر التقييمات التجريبية أن POMP تحقق أداءً متقدماً على 21 مجموعة بيانات، مثالاً على ذلك دقة متوسطة بلغت 67.0% على 10 مجموعات تصنيف (+3.1% مقارنةً بـ CoOp)، و84.4 hIoU على مهمة التقسيم المفتوح النطاق (open-vocabulary) لبيانات Pascal VOC (+6.9 مقارنةً بـ ZSSeg). يُمكن الوصول إلى الشفرة المصدرية للدراسة من خلال الرابط التالي: https://github.com/amazon-science/prompt-pretraining.

التدريب المسبق على النصوص مع عشرين ألف فئة للتمييز البصري ذي المفردات المفتوحة | أحدث الأوراق البحثية | HyperAI