HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المسبق على النصوص مع عشرين ألف فئة للتمييز البصري ذي المفردات المفتوحة

Shuhuai Ren Aston Zhang Yi Zhu Shuai Zhang Shuai Zheng Mu Li Alex Smola Xu Sun

الملخص

تقترح هذه الدراسة طريقة POMP، وهي طريقة تدريب مُقدّمة (prompt pre-training) لنموذجات الرؤية واللغة. وبما أن POMP فعّالة من حيث الذاكرة والحساب، فإنها تُمكّن المُقدّمة المُدرَّبة من تجميع المعلومات الدلالية لطيف واسع من المفاهيم البصرية التي تضم أكثر من عشرين ألف فئة. وبعد التدريب المسبق، يمكن استخدام المُقدّمة ذات القدرة القوية على الانتقال مباشرة في مجموعة متنوعة من مهام التعرف البصري، بما في ذلك تصنيف الصور، والتقسيم الدلالي، والكشف عن الكائنات، لتعزيز أداء التعرف بطريقة صفرية (zero-shot). تُظهر التقييمات التجريبية أن POMP تحقق أداءً متقدماً على 21 مجموعة بيانات، مثالاً على ذلك دقة متوسطة بلغت 67.0% على 10 مجموعات تصنيف (+3.1% مقارنةً بـ CoOp)، و84.4 hIoU على مهمة التقسيم المفتوح النطاق (open-vocabulary) لبيانات Pascal VOC (+6.9 مقارنةً بـ ZSSeg). يُمكن الوصول إلى الشفرة المصدرية للدراسة من خلال الرابط التالي: https://github.com/amazon-science/prompt-pretraining.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp