HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم نماذج بصرية قابلة للنقل من خلال الإشراف باللغة الطبيعية

الملخص

أنظمة الرؤية الحاسوبية المتقدمة مُدربة على التنبؤ بمجموعة ثابتة من فئات الأشياء المحددة مسبقًا. هذا الشكل المحدود من الإشراف يحد من عموميتها واستخدامها، حيث يتطلب تحديد أي مفهوم بصرى آخر بيانات مصنفة إضافية. التعلم مباشرة من النص الخام حول الصور هو بديل واعد يستفيد من مصدر أوسع بكثير للإشراف. نحن نوضح أن مهمة التدريب الأولي البسيطة للتنبؤ بأي تعليق يناسب أي صورة هي طريقة فعالة وقابلة للتوسع لتعلم تمثيلات الصور سOTA (State-of-the-Art) من البداية على مجموعة بيانات تتألف من 400 مليون زوج (صورة، نص) تم جمعها من الإنترنت. بعد التدريب الأولي، يتم استخدام اللغة الطبيعية لمرجعة المفاهيم البصرية التي تم تعلمها (أو وصف مفاهيم جديدة)، مما يمكن النموذج من النقل الفوري إلى المهام اللاحقة. ندرس أداء هذه الطريقة عبر اختبارها على أكثر من 30 مجموعة بيانات موجودة في مجال الرؤية الحاسوبية، تغطي مهامًا مثل التعرف على النصوص المرئية OCR (Optical Character Recognition)، والتعرف على الأنشطة في مقاطع الفيديو، والتحديد الجغرافي، وأنواع عديدة من تصنيف الأشياء الدقيق. ينتقل النموذج بشكل غير ترتيبي إلى معظم المهام ويتنافس غالبًا مع الأساس الخاضع للإشراف الكامل دون الحاجة إلى أي تدريب خاص بالمجموعة البيانات. على سبيل المثال، نحقق دقةً مماثلةً لدقة ResNet-50 الأصلية في ImageNet بدون الحاجة إلى استخدام أيٍّ من 1.28 مليون مثال تدريبي الذي تم تدريبها عليه. نقوم بإصدار شفرتنا ومعلمات النموذج المدرب أوليًا على https://github.com/OpenAI/CLIP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تعلم نماذج بصرية قابلة للنقل من خلال الإشراف باللغة الطبيعية | مستندات | HyperAI