إعادة النظر في تشفير سلاسل صور الأقمار الصناعية الزمنية

تمثيل التعلم من سلسلة صور الأقمار الصناعية (SITS) معقد بسبب الارتفاع في الدقة المكانية والزمنية، وفترات التقاط غير منتظمة، والتفاعلات المكانية الزمنية المعقدة. تؤدي هذه التحديات إلى تطور هياكل معمارية مخصصة للشبكات العصبية تُصمم خصيصًا لتحليل SITS. وقد شهد المجال نتائج واعدة حققها باحثون رائدون، لكن نقل التطورات الحديثة أو النماذج المثبتة من مجال الرؤية الحاسوبية (CV) إلى تحليل SITS لا يزال يشكل تحديًا كبيرًا نظرًا لوجود إطار غير مثالي لتمثيل التعلم. في هذا البحث، نُقدّم منظورًا جديدًا لمعالجة SITS كمشكلة تنبؤ مباشرة بالمجموعات (set prediction)، مستلهمين من الاتجاه الحديث في استخدام فكّات الترانسفورمر القائمة على الاستفسار (query-based) لتبسيط سلسلة معالجة الكشف عن الكائنات أو تقسيم الصور. ونُقترح أيضًا تفكيك عملية تمثيل التعلم في SITS إلى ثلاث خطوات صريحة: جمع-تحديث-توزيع (collect-update-distribute)، وهي عملية حسابية فعالة وتتناسب بشكل جيد مع الملاحظات الزمنية غير المنتظمة والمتزامنة من الأقمار الصناعية. وبفضل إعادة الصياغة الفريدة، حقق النموذج الأساسي للتعلم الزمني الذي اقترحناه لـ SITS، والذي تم تدريبه أولًا على شكل مكاني فعّال من حيث الموارد (pixel-set) ثم تحسينه دقيقًا على مهام التنبؤ الكثيفة، نتائج جديدة متفوقة على مستوى الحد الأقصى (SOTA) على مجموعة بيانات PASTIS المعيارية. وبشكل خاص، فإن الفصل الواضح بين المكونات الزمنية والمكونات المكانية في خط أنابيب التصنيف المعنوي أو الشامل (semantic/panoptic segmentation) لـ SITS يمكّننا من الاستفادة من أحدث التطورات في مجال الرؤية الحاسوبية، مثل بنية التصنيف الشامل للصورة، مما أدى إلى زيادة ملحوظة قدرها 2.5 نقطة في mIoU و8.8 نقطة في PQ مقارنة بأفضل النتائج المبلغ عنها حتى الآن.