تعلم التمثيلات عن طريق زيادة المعلومات المتبادلة بين وجهات النظر

نقترح نهجًا للتعلم التمثيلي ذاتي الإشراف يعتمد على تعظيم المعلومات المتبادلة بين الخصائص المستخرجة من وجهات نظر متعددة لسياق مشترك. على سبيل المثال، يمكن إنتاج وجهات نظر متعددة لموقع زماني-مكاني محلي من خلال مراقبته من مواقع مختلفة (مثل مواقع الكاميرات داخل المشهد) ومن خلال وسائل حسية مختلفة (مثل اللمس، السمع، أو البصر). أو يمكن أن توفر صورة من ImageNet سياقًا يتم منه إنتاج وجهات نظر متعددة بإعادة تطبيق زيادة البيانات بشكل متكرر. يتطلب تعظيم المعلومات المتبادلة بين الخصائص المستخرجة من هذه الوجهات التقاط معلومات عن عوامل مستويات عليا تأثيرها يمتد عبر عدة وجهات -- مثل وجود بعض الأجسام أو حدوث بعض الأحداث.وفقًا للنهج الذي اقترحناه، طورنا نموذجًا يتعلم تمثيلات الصور التي تتفوق بشكل كبير على الطرق السابقة في المهام التي نعتبرها. وأبرز ما في الأمر هو أن نموذجنا يتعلم تمثيلات باستخدام التعلم ذاتي الإشراف تحقق دقة قدرها 68.1٪ على ImageNet باستخدام التقييم الخطي القياسي. هذا يتفوق على النتائج السابقة بأكثر من 12٪ وعلى النتائج المتزامنة بنسبة 7٪. عند توسيع نموذجنا لاستخدام تمثيلات قائمة على الخليط، تظهر سلوك الفصل كتأثير طبيعي جانبي. رمز البرمجيات الخاص بنا متاح عبر الإنترنت: https://github.com/Philip-Bachman/amdim-public.