تدريب عبر المنظور لتعلم شبه مراقب

نقدّم طريقة التدريب عبر المنظورات (Cross-View Training (CVT، وهي طريقة بسيطة ولكن فعّالة للتعلم العميق شبه المُشرَّف. يتم تدريب النموذج باستخدام خسارة التباين العددي القياسي (cross-entropy loss) على الأمثلة المُعلّمة. أما على الأمثلة غير المُعلّمة، فيقوم النموذج أولاً بعملية الاستنتاج (بصفته "المُدرّس") لإنتاج أهداف ناعمة (soft targets). ثم يتعلم النموذج من هذه الأهداف الناعمة (بصفته "الطالب"). ونختلف عن الدراسات السابقة من خلال إضافة طبقات تنبؤ إضافية (طلابية متعددة) إلى النموذج. يُستخدم كمدخل لكل طبقة طالب شبكة فرعية من النموذج الكامل، والتي تمتلك رؤية محدودة للمدخل (مثلاً، رؤية منطقة واحدة فقط في صورة). يمكن للطلاب التعلّم من المُدرّس (النموذج الكامل) لأن المُدرّس يرى جزءًا أكبر من كل مثال. وفي الوقت نفسه، يُحسّن الطلاب جودة التمثيلات المستخدمة من قبل المُدرّس، أثناء تعلّمهم إجراء التنبؤات باستخدام بيانات محدودة. عند دمج CVT مع التدريب الانتقالي الافتراضي (Virtual Adversarial Training)، تتفوّق CVT على الحالة الراهنة من الأداء على مجموعتي بيانات CIFAR-10 شبه المُشرّفة وSVHN شبه المُشرّفة. كما طبّقنا CVT لتدريب نماذج على خمسة مهام في معالجة اللغة الطبيعية باستخدام مئات الملايين من الجمل غير المُعلّمة. وفي جميع المهام، تفوقت CVT بشكل كبير على التعلّم المُشرَّف وحده، ما أدى إلى نماذج تتفوّق على أو تكون منافسة للحالة الراهنة من الأداء.