الدمج متعدد الوسائط العميق لتقسيم المعنى للبيانات المراقبة الأرضية عن بعد

الترجمة العربية:دقة تقسيم المعنى لصور الاستشعار عن بعد ضرورية لمجموعة متنوعة من تطبيقات مراقبة الأرض، مثل رسم خرائط غطاء الأرض، والتخطيط الحضري، ومراقبة البيئة. ومع ذلك، غالبًا ما تقدم المصادر الفردية للبيانات تحديات لهذا المهمة. توفر صور الطائرات ذات الدقة العالية جدًا (VHR) تفاصيل فضائية غنية ولكنها لا تستطيع التقاط المعلومات الزمنية حول التغيرات في غطاء الأرض. بالمقابل، تلتقط سلاسل زمنية الصور الفضائية (SITS) الديناميكيات الزمنية، مثل التغيرات الموسمية في النباتات، ولكن بدقة فضائية محدودة، مما يجعل من الصعب تمييز الأشياء على نطاق دقيق. يقترح هذا البحث نموذج تعلم عميق للدمج المتأخر (LF-DLM) لتقسيم المعنى يستفيد من القوى المكملة لكل من صور الطائرات ذات الدقة العالية جدًا وسلاسل زمنية الصور الفضائية. يتكون النموذج المقترح من فرعين مستقلين للتعلم العميق. يدمج الفرع الأول النقوش التفصيلية من صور الطائرات التي يتم التقاطها بواسطة UNetFormer مع هيكل متعدد المحاور للمتحول البصري (MaxViT). أما الفرع الثاني فيلتقط الديناميكيات المكانية-الزمنية المعقدة من سلسلة زمنية صور القمر الصناعي Sentinel-2 باستخدام U-Net مع كودير انتباه زمني (U-TAE). يؤدي هذا النهج إلى تحقيق نتائج رائدة على مجموعة بيانات FLAIR، وهي مجموعة بيانات كبيرة الحجم كمعيار لتقييم تقسيم غطاء الأرض باستخدام صور بصرية متعددة المصادر. تؤكد النتائج أهمية دمج متعدد الوسائط في تحسين دقة ومتانة تقسيم المعنى في تطبيقات الاستشعار عن بعد.