التعلم الذاتي المُراقب للتمثيلات المستقلة عن المُقدّمات

الهدف من التعلم ذاتي التوجيه من الصور هو بناء تمثيلات صورية ذات معنى معنوي من خلال مهام مسبقة (pretext tasks) لا تتطلب تسميات معنوية لمجموعة تدريب كبيرة من الصور. تؤدي العديد من المهام المسبقة إلى تمثيلات تكون تغيرية (covariant) بالنسبة للتحويلات الصورية. نحن نجادل بأن التمثيلات المعنوية ينبغي أن تكون غير متغيرة (invariant) تجاه هذه التحولات. وبصورة محددة، نطور طريقة تُسمى التعلم بالتمثيلات غير المتغيرة للوظائف المسبقة (Pretext-Invariant Representation Learning)، أو اختصارًا PIRL (تُلفظ "pearl")، والتي تتعلم تمثيلات غير متغيرة استنادًا إلى مهام مسبقة. نستخدم PIRL مع مهمة مسبقة شائعة تتضمن حل ألغاز مكونة من قطع صور (jigsaw puzzles). ونجد أن PIRL تُحسّن بشكل كبير من الجودة المعنوية للتمثيلات الصورية المُتعلّمة. ويُعدّ نهجنا الأفضل على الإطلاق في مجال التعلم ذاتي التوجيه من الصور على عدة معايير شهيرة لهذا المجال. وبالرغم من كونه غير مُشرَّف، فإن PIRL يتفوّق على التدريب المُشرَّف في تعلّم تمثيلات الصور للكشف عن الكائنات. وبشكل عام، تُظهر نتائجنا الإمكانات الكبيرة للتعلم ذاتي التوجيه في تمثيلات الصور التي تمتلك خصائص تجانس جيد.