تعلم نماذج بصرية قابلة للنقل من خلال الإشراف باللغة الطبيعية

أنظمة الرؤية الحاسوبية المتقدمة مُدربة على التنبؤ بمجموعة ثابتة من فئات الأشياء المحددة مسبقًا. هذا الشكل المحدود من الإشراف يحد من عموميتها واستخدامها، حيث يتطلب تحديد أي مفهوم بصرى آخر بيانات مصنفة إضافية. التعلم مباشرة من النص الخام حول الصور هو بديل واعد يستفيد من مصدر أوسع بكثير للإشراف. نحن نوضح أن مهمة التدريب الأولي البسيطة للتنبؤ بأي تعليق يناسب أي صورة هي طريقة فعالة وقابلة للتوسع لتعلم تمثيلات الصور سOTA (State-of-the-Art) من البداية على مجموعة بيانات تتألف من 400 مليون زوج (صورة، نص) تم جمعها من الإنترنت. بعد التدريب الأولي، يتم استخدام اللغة الطبيعية لمرجعة المفاهيم البصرية التي تم تعلمها (أو وصف مفاهيم جديدة)، مما يمكن النموذج من النقل الفوري إلى المهام اللاحقة. ندرس أداء هذه الطريقة عبر اختبارها على أكثر من 30 مجموعة بيانات موجودة في مجال الرؤية الحاسوبية، تغطي مهامًا مثل التعرف على النصوص المرئية OCR (Optical Character Recognition)، والتعرف على الأنشطة في مقاطع الفيديو، والتحديد الجغرافي، وأنواع عديدة من تصنيف الأشياء الدقيق. ينتقل النموذج بشكل غير ترتيبي إلى معظم المهام ويتنافس غالبًا مع الأساس الخاضع للإشراف الكامل دون الحاجة إلى أي تدريب خاص بالمجموعة البيانات. على سبيل المثال، نحقق دقةً مماثلةً لدقة ResNet-50 الأصلية في ImageNet بدون الحاجة إلى استخدام أيٍّ من 1.28 مليون مثال تدريبي الذي تم تدريبها عليه. نقوم بإصدار شفرتنا ومعلمات النموذج المدرب أوليًا على https://github.com/OpenAI/CLIP.