OBoW: توليد الحقيبة المُتعددة للكلمات البصرية على الإنترنت للتعلم الذاتي التوجيه

يُعدّ تعلّم تمثيلات الصور دون توجيه بشري مجالًا بحثيًا مهمًا ونشطًا. وقد استخدمت عدة مناهج حديثة بنجاح فكرة جعل هذه التمثيلات غير حساسة تجاه أنواع مختلفة من الاضطرابات، خاصة من خلال تدريب مبني على المقارنة (contrastive-based) يُركّز على تمييز الأمثلة (instance discrimination). وعلى الرغم من أن التمثيلات البصرية الفعّالة ينبغي بالفعل أن تمتلك هذه الخصائص غير الحساسة، هناك سمات مهمة أخرى، مثل قدرة التمثيل على ترميز مهارات الاستدلال السياقي، التي قد تكون مناسبة أكثر للمناهج القائمة على إعادة البناء (reconstruction-based).باعتبار ذلك، نقترح نموذجًا مبنيًا على التدريس-التعلم (teacher-student) لتعلم التمثيلات من خلال تدريب شبكة تلافيفية (convolutional net) على إعادة بناء تمثيل "حقيبة كلمات بصرية" (bag-of-visual-words, BoW) لصورة، وذلك عند إدخال نسخة مشوّشة (perturbed) من نفس الصورة. تُطبّق استراتيجيتنا تدريبًا مباشرًا (online) لكل من الشبكة المعلمة (التي تُولّد أهداف BoW) والشبكة المُتعلّمة (التي تُدرّب على تعلّم التمثيلات)، بالإضافة إلى تحديث مباشر (online update) لمجموعة كلمات بصرية (التي تُستخدم كأهداف BoW). يمكّن هذا المفهوم من تطبيق تعلّم غير مُراقب مُوجّه بـ BoW بشكل كامل ومتزامن. تُظهر التجارب الواسعة فائدة استراتيجيتنا القائمة على BoW، والتي تتفوّق على الطرق الرائدة السابقة (بما في ذلك الطرق القائمة على المقارنة) في العديد من التطبيقات. على سبيل المثال، في المهام التالية: كشف الكائنات في Pascal، وتصنيف Pascal، وتصنيف Places205، تتفوّق طريقةنا على جميع الطرق غير المُراقبة السابقة، مما يُحدّد نتائج جديدة مُتطورة (state-of-the-art) تفوق حتى النتائج المحققة بالتدريب المُراقب المسبق (supervised pre-training). نُقدّم كود التنفيذ على الرابط التالي: https://github.com/valeoai/obow.