SSL4EO-S12: مجموعة بيانات كبيرة الحجم متعددة الوسائط، متعددة الزمنية لتعلم ذاتي في الرصد الأرضي

يُعد التدريب المسبق ذاتيًا (Self-supervised pre-training) واعدًا في إنتاج تمثيلات تعبيرية دون الحاجة إلى تسمية يدوية من قبل البشر. يعتمد معظم التدريب المسبق في مراقبة الأرض (Earth Observation - EO) حاليًا على مجموعة بيانات ImageNet أو مجموعات بيانات متوسطة الحجم مُسمّاة مسبقًا لصور الاستشعار عن بعد (Remote Sensing - RS). نقدم هنا مجموعة بيانات غير مُسمّاة لصور الاستشعار عن بعد بعنوان SSL4EO-S12 (التعلم الذاتي للرصد الأرضي - سنتينل-1 وسنتينل-2)، بهدف تجميع مجموعة ضخمة عالميًا، متعددة الوسائط، ومتعددة الفصول من صور الأقمار الصناعية المستمدة من مهام الأقمار الصناعية سنتينل-1 وسنتينل-2 التابعة للوكالة الأوروبية للفضاء (ESA). ونُظهر في تطبيقات مراقبة الأرض أن مجموعة البيانات SSL4EO-S12 تُحقق نجاحًا في التدريب المسبق ذاتيًا لسلسلة من الأساليب، منها MoCo-v2، DINO، MAE، وdata2vec. وتمكّن النماذج الناتجة من تحقيق أداءً في المهام اللاحقة يقترب من، أو يتفوق على، قياسات الدقة الناتجة عن التعلم المُشرَّف (supervised learning). علاوة على ذلك، يتفوّق التدريب المسبق على مجموعة البيانات SSL4EO-S12 مقارنةً بالبيانات الأخرى المتوفرة حاليًا. ونُعلن عن توفير هذه المجموعة بيانات، والكود المصدري المرتبط بها، والنماذج المُدرّبة مسبقًا بشكل مفتوح عبر الرابط التالي: https://github.com/zhu-xlab/SSL4EO-S12.