إعادة النظر في التدريب المسبق المراقب ضعيفًا لنماذج الإدراك البصري

يُعد التدريب المسبق للنماذج حجر الزاوية في أنظمة التعرف البصري الحديثة. وعلى الرغم من أن التدريب المُراقب بالكامل على مجموعات بيانات مثل ImageNet لا يزال المعيار الفعلي، تشير دراسات حديثة إلى أن التدريب المسبق على نطاق واسع باستخدام إشراف ضعيف قد يتفوق على الطرق المُراقبة بالكامل. تعيد هذه الورقة استكشاف التدريب المسبق المُراقب ضعيفًا باستخدام إشراف مبني على العلامات (#)، مع استخدام نماذج حديثة من الشبكات المتبقية (Residual Networks) وأكبر مجموعة بيانات من الصور والعلامات المرتبطة بها على الإطلاق. ندرس أداء النماذج الناتجة في مختلف سياقات التعلم الانتقالي، بما في ذلك التعلم الصفرية (zero-shot transfer). كما نقارن نماذجنا بنماذج تم الحصول عليها عبر التعلم التلقائي على نطاق واسع. ونجد أن نماذجنا المُراقبة ضعيفًا تنافسية للغاية في جميع السياقات، وتفوق بشكل ملحوظ نماذج التعلم التلقائي. كما نُجري تحقيقًا في إمكانية تعلم النماذج ارتباطات أو نمطًا ثابتًا قد يكون مثيرًا للقلق. بشكل عام، تقدم النتائج دعوة قوية لاستخدام التعلم المُراقب ضعيفًا في تطوير أنظمة التعرف البصري. تُتاح نماذجنا، المُسمّاة Supervised Weakly through hashtAGs (SWAG)، للجمهور بشكل عام.