التعرف على الصور بكفاءة عالية في استخدام البيانات باستخدام الترميز التنبؤي المقارن

يمكن للمراقبين البشريين تعلم التعرف على فئات جديدة من الصور من خلال عدد قليل من الأمثلة، ومع ذلك يظل القيام بذلك باستخدام النماذج الاصطناعية تحديًا مفتوحًا. نفترض أن التعرف الكفء على البيانات يتم تمكينه من خلال التمثيلات التي تجعل التباين في الإشارات الطبيعية أكثر قابلية للتنبؤ. ولذلك، نعيد النظر ونحسن في الترميز التنبؤي المقارن (Contrastive Predictive Coding)، وهو هدف غير مشرف لتعلم مثل هذه التمثيلات. ينتج هذا التنفيذ الجديد خصائص تدعم دقة تصنيف خطية متقدمة على مستوى الحالة الفنية في مجموعة بيانات ImageNet. عند استخدامها كمدخل للتصنيف غير الخطي مع الشبكات العصبية العميقة، تسمح هذه التمثيلات لنا باستخدام 2-5 أضعاف أقل من العلامات مقارنة بالتصنيفات التي يتم تدريبها مباشرة على بيكسلات الصور. وأخيرًا، يحسن هذا التمثيل غير المشرف بشكل كبير التعلم النقل إلى اكتشاف الأشياء في مجموعة بيانات PASCAL VOC، مما يتخطى المصنفات التي تم تدريبها بشكل كامل ومشرف على ImageNet.