ICML 2025 | طورت الجامعة التقنية في ميونيخ وآخرون طريقة لتوليد صور الأقمار الصناعية تعتمد على SD3 لبناء أكبر مجموعة بيانات استشعار عن بعد حاليًا

صور الأقمار الصناعية هي صور لسطح الأرض تُلتقط عبر تقنية الاستشعار عن بُعد عبر الأقمار الصناعية. تُحوّل هذه الصور معلومات الأرض رقميًا من خلال إنشاء "منظور فضائي" لتحقيق كشف واسع النطاق، وتتبع ديناميكي، ودعم للبيانات. في الحياة اليومية، لا ينفصل كلٌّ من الحوكمة البيئية الكلية والحياة الحضرية الجزئية عنها. على سبيل المثال، في مجال مراقبة الغابات، يُمكن لصور الأقمار الصناعية تحديد نطاق توزيع الغابات بسرعة، وحساب نسبة تغطية أنواع الغابات المختلفة، واكتشاف التغيرات في تغطية الغابات الناتجة عن قطع الأشجار، والزراعة، والآفات والأمراض، وما إلى ذلك.
لكن،يتأثر رصد الأقمار الصناعية بسهولة بعوامل متعددة، مما يقلل بشكل كبير من أدائه وتأثير تطبيقه.يُعدّ تداخل الغطاء السحابي خطيرًا للغاية. على سبيل المثال، في المناطق التي تكثر فيها السحب، قد تنقطع مراقبة الأقمار الصناعية لأيام أو حتى أسابيع. هذا لا يعيق المراقبة الديناميكية الآنية للأقمار الصناعية فحسب، بل يطرح أيضًا متطلبات جديدة لدمج صور الأقمار الصناعية مع بيانات المناخ لتحسين دقة التنبؤات. وقد أتاح التطور السريع لتكنولوجيا الذكاء الاصطناعي وخوارزميات التعلم الآلي فرصةً لتلبية هذا المطلب، إلا أن معظم الأساليب الحالية مصممة لمهام محددة أو مناطق محددة، وتفتقر إلى الشمولية اللازمة لتطبيقها عالميًا.
لحل المشاكل المذكورة أعلاه،اقترح فريق من الجامعة التقنية في ميونيخ في ألمانيا وجامعة زيورخ في سويسرا طريقة جديدة لإنشاء صور الأقمار الصناعية المشروطة بالمؤشرات المناخية الجغرافية باستخدام Stable Diffusion 3 (SD3)، أثناء إنشاء EcoMapper، أكبر وأشمل مجموعة بيانات الاستشعار عن بعد حتى الآن.تجمع مجموعة البيانات أكثر من 2.9 مليون صورة أقمار صناعية RGB من القمر الصناعي Sentinel-2 من 104,424 موقعًا حول العالم، تغطي 15 نوعًا من الغطاء الأرضي وسجلات المناخ المقابلة، مما يُرسي الأساس لطريقتين لتوليد صور الأقمار الصناعية باستخدام نموذج SD3 مُعدّل بدقة. من خلال الجمع بين توليد الصور الاصطناعية وبيانات المناخ والغطاء الأرضي، تُعزز الطريقة المقترحة تطوير تقنية النمذجة التوليدية في الاستشعار عن بُعد، وتُسد فجوة الرصد في المناطق المتأثرة بالغطاء السحابي المستمر، وتُوفر أدوات جديدة للتكيف مع المناخ العالمي والتحليل الجغرافي المكاني.
تم اختيار نتائج البحث، التي تحمل عنوان "EcoMapper: النمذجة التوليدية لصور الأقمار الصناعية التي تدرك المناخ"، لـ ICML 2025.
أبرز الأبحاث:
* تم إنشاء EcoMapper، أكبر مجموعة بيانات استشعار عن بعد وأكثرها شمولاً حتى الآن، والتي تحتوي على أكثر من 2.9 مليون صورة من الأقمار الصناعية
* تم تطوير نموذج توليد النص إلى صورة يعتمد على Stable Diffusion 3 المتطور لتوليد صور تركيبية واقعية لمناطق محددة باستخدام إشارات نصية تحتوي على تفاصيل المناخ والغطاء الأرضي.
* تطوير إطار عمل نموذجي متعدد الشروط (نص + صورة) باستخدام ControlNet لرسم خريطة بيانات المناخ أو إنشاء سلاسل زمنية لمحاكاة تطور المناظر الطبيعية

عنوان الورقة:
عنوان تنزيل مجموعة البيانات:
مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
مجموعة البيانات: أكبر مجموعة بيانات استشعار عن بعد وأكثرها شمولاً حتى الآن
EcoMapper هي أكبر مجموعة بيانات استشعار عن بعد وأكثرها شمولاً حتى الآن.تتكون مجموعة البيانات من 2,904,000 صورة من الأقمار الصناعية تحتوي على بيانات مناخية، تم أخذ عينات منها من 104,424 موقعًا جغرافيًا حول العالم.يغطي هذا النظام 15 نوعًا مختلفًا من الغطاء الأرضي، كما هو موضح في الشكل أدناه:


في،تحتوي مجموعة التدريب على 98,930 نقطة جغرافية، وفترة المراقبة لكل نقطة هي 24 شهرًا.اختار الباحثون ملاحظة واحدة شهريًا لكل موقع على مدار عامين، بناءً على الأيام الأقل غطًا سحابيًا، مما أدى إلى سلسلة من ٢٤ صورة لكل موقع. وُزِّعت فترة الملاحظة، التي استمرت عامين، عشوائيًا بين عامي ٢٠١٧ و٢٠٢٢.
تحتوي مجموعة الاختبار على 5,494 نقطة جغرافية.وتبلغ فترة المراقبة لكل موقع 96 شهرًا (8 سنوات)، وتمتد من عام 2017 إلى عام 2024، كما يتم إجراء المراقبة شهريًا أيضًا.
ومن الناحية المكانية، تبلغ مساحة التغطية المكانية لكل ملاحظة حوالي 26.21 كيلومترًا مربعًا.تغطي مجموعة البيانات الإجمالية ما يقرب من 2,704,000 كيلومتر مربع، وهو ما يمثل حوالي 2.05% من إجمالي مساحة اليابسة على الأرض.وتضمن هذه البيانات استقلالية مكانية وزمانية كافية في التقييم، مما يتيح تقييمًا قويًا لتعميم النموذج عبر مناطق مختلفة وظروف مناخية غير مرئية.
بالإضافة إلى ذلك، يُثري كل موقع أخذ عينات ببيانات وصفية، تشمل الموقع الجغرافي (خطوط العرض والطول)، وتاريخ الرصد (السنة والشهر)، ونوع الغطاء الأرضي والغطاء السحابي، بالإضافة إلى متوسط درجة الحرارة الشهرية، والإشعاع الشمسي، وإجمالي هطول الأمطار، من ناسا باور. تُظهر هذه البيانات فوائد للزراعة والغابات والغطاء الأرضي والتنوع البيولوجي.
هندسة النموذج: نموذج توليد النص والصورة ونموذج توليد متعدد الشروط
يهدف هذا البحث إلى تجميع صور الأقمار الصناعية المشروطة بالبيانات الجغرافية والمناخية لتمكين التنبؤات الواقعية للظروف البيئية.كان على الباحثين التعامل مع مهمتين رئيسيتين: إنشاء النص إلى صورة وإنشاء صورة متعددة الشروط.
قام الباحثون بتقييم قدرة نموذجين توليديين على دمج بيانات المناخ الوصفية في تركيب صور الأقمار الصناعية:
الأول هو الانتشار المستقر 3.هذا نموذج انتشار كامن متعدد الوسائط يدمج مُشفِّرات النص CLIP وT5 لتمكين إعدادات مرنة لحالة الاستجابة السريعة. استخدم الباحثون مجموعة البيانات المُجمَّعة لضبط نموذج الانتشار المستقر 3 بدقة، بحيث يمكن أن يستند إلى صور أقمار صناعية واقعية مع بيانات وصفية جغرافية ومناخية وزمنية.
والثاني هو DiffusionSat،هذا نموذج أساسي مُصمم خصيصًا لصور الأقمار الصناعية، ويعتمد على نموذج الانتشار المستقر 2، وقد تم توسيعه بطبقة تضمين بيانات وصفية مخصصة للمعالجة العددية. مقارنةً بنماذج الانتشار العامة، صُمم هذا النموذج خصيصًا لمهام الاستشعار عن بُعد، ويمكنه ترميز السمات المكانية والزمانية الرئيسية، ويتميز بدقة فائقة، واستعادة الصور، والتنبؤ الزمني.
بالنسبة لمهمة إنشاء النص إلى صورة، قارن الباحثون التكوينات المختلفة لـ Stable Diffusion 3 وDiffusionSat، بما في ذلك النماذج الدقيقة وغير الدقيقة، وأجروا تجارب بدقة مختلفة:
* النماذج الأساسية: يتم تقييم كلا النموذجين بدقة 512 × 512 دون ضبط دقيق.
* النماذج المضبوطة بدقة (-FT): تم تقييم كلا النموذجين بعد الضبط الدقيق باستخدام بيانات التعريف المناخية بدقة 512 × 512.
* نموذج SD3 عالي الدقة: تم ضبط SD3 واختباره باستخدام بيانات التعريف المناخية بدقة 1024 × 1024، المسمى SD3-FT-HR.
بالنسبة لمهام إنشاء الصور متعددة الشروط،اختار الباحثون استخدام نموذج Stable Diffusion 3 الدقيق المعزز بتقنية LoRA (التكيف منخفض الرتبة) لأداء مهام إنشاء الصور متعددة الشروط.تم تدريب النموذج بدقة 512 × 512 كأساس لتوليد صور عالية الجودة وذات صلة بالسياق. استخدمت الدراسة تقنية ControlNet لبناء آلية ثنائية الشرط:
* يُحسّن ControlNet نموذج الانتشار من خلال دمج التحكم المكاني الصريح في عملية التوليد. يضمن هذا التصميم أن يكون لكتلة التحكم تأثير أولي ضئيل على الكتلة الرئيسية، حيث تعمل كوصلة تخطي.
* صور الأقمار الصناعية كإشارات تحكم:تُستخدم صور الأقمار الصناعية من الأشهر القليلة الماضية كإشارات تحكم للحفاظ على البنية المكانية للصور المُولَّدة، مما يضمن ثبات التضاريس والمخططات الحضرية وغيرها من المعالم الجغرافية. يتيح هذا للنموذج استيعاب التغييرات بمرور الوقت، مما يعكس التغيرات البيئية في العالم الحقيقي.
* نصائح المناخ:حدد الظروف المناخية والجوية لتوليد صور الأقمار الصناعية بمساعدة آلية التكييف النصي.
بدمج هذين العاملين، تُمكّن الدراسة النموذج من توليد صور أقمار صناعية واقعية تُراعي تغير المناخ مع الحفاظ على الاتساق المكاني. كما يدعم هذا النهج توليد السلاسل الزمنية، مما يُحاكي تطور المناظر الطبيعية في ظل الظروف المناخية المتغيرة. كما هو موضح في الشكل أدناه:

تم دمج إطار عمل Stable Diffusion 3 وControlNet لتحقيق توليد صور الأقمار الصناعية متعددة الظروف
من حيث البنية السريعة، من أجل توليد صور الأقمار الصناعية بشكل فعال،قام الباحثون بتصميم نوعين من المطالبات لتوجيه عملية إنشاء صور الأقمار الصناعية، وهي المطالبات المكانية والمطالبات المناخية.يُستخدم الأول لتشفير البيانات الوصفية الأساسية، بما في ذلك معلومات مثل نوع الغطاء الأرضي والموقع والتاريخ والغطاء السحابي، لضمان اتساق الصورة المُولَّدة مع السياق الجغرافي والزماني؛ بينما يدمج الثاني متغيرات المناخ الشهرية (درجة الحرارة، وهطول الأمطار، والإشعاع الشمسي) بناءً على إشارات مكانية لتوفير معلومات أغنى عن الحالة البيئية لتوليد الصور. يستخدم كلا الإشارتين مُرمِّز النصوص الخاص بـ Stable Diffusion 3، حيث تُعالَج المعلومات المكانية بواسطة CLIP، وتُعالَج بيانات المناخ بواسطة مُرمِّز T5.
النتائج التجريبية: أداء التوليد يتجاوز النموذج الأساسي، ولكن لا يزال هناك مجال للتحسين
قام الباحثون بتصميم نظام تجريبي متعدد الأبعاد وتحققوا من أداء النموذج التوليدي المصمم في توليد صور الأقمار الصناعية الواعية للمناخ من خلال مقارنات وتجارب أفقية ورأسية متعددة.
أولا، حدد الباحثون خمسة مؤشرات ثابتة:تشمل هذه المعايير FID (مسافة فريشيه التأسيسية)، وLPIPS (تشابه رقعة الصورة الإدراكية المُكتسبة)، وSSIM (مؤشر التشابه الهيكلي)، وPSNR (نسبة ذروة الإشارة إلى الضوضاء)، وCLIP Score. من بينها، يُقيّم FID وLPIPS تشابه توزيع الصور والاختلاف الإدراكي، بينما يقيس SSIM وPSNR الاتساق الهيكلي وجودة إعادة البناء، ويُقيّم CLIP Score محاذاة النص والصورة.
وفيما يتعلق بإنشاء النص إلى صورة، تحقق الباحثون من فعالية النموذج المصمم من خلال مقارنة أداء Stable Diffusion 3 وDiffusionSat وإصداراتهما المضبوطة (SD3-FT وDiffusionSat-FT) وSD3-FT-HR على 5500 نقطة جغرافية.
كما هو موضح في الشكل أدناه. حصلت النماذج الأساسية SD3 وDiffusionSat على أدنى درجات التقييم.ومع ذلك، فإن الأداء الأخير أفضل بكثير من الأول، وهو ما يوضح مزايا التدريب المسبق للاستشعار عن بعد؛ كما تم تحسين مؤشرات جميع نماذج الضبط الدقيق بشكل كبير.يؤدي SD3-FT أداءً أفضل في CLIP وSSIM وPSNR، بينما يؤدي DiffusionSat-FT أداءً أفضل في FID وLPIPS. تتمتع SD3-FT-HR بأقل قيمة FID (تشير قيم FID المنخفضة إلى أصالة أعلى)، وهي 49.48، مما يشير إلى أن الصور التي تم إنشاؤها تحتوي على تفاصيل أدق.

يُظهر تحليل النتائج النوعية أن النموذج المصمم يمكنه التقاط الملمس المنتظم للأراضي الزراعية والأراضي العشبية وخصائص التضاريس الجبلية، وخاصة أن SD3-FT-HR يعمل بشكل أفضل في تغييرات كثافة الغطاء النباتي والتفاصيل عالية الدقة.
وفي تحليل حساسية المناخ، كما هو موضح في الشكل أدناه،ترتبط كثافة الغطاء النباتي التي يولدها النموذج بشكل كبير بتغير المناخ.أجرت الدراسة اختبار إجهاد كمي لنموذج SD3-FT على عينات تعرضت لظروف جوية قاسية. أظهرت النتائج أنه في ظل درجات الحرارة العالية والإشعاع العالي، كان معدل FID للصور الناتجة عن النموذج أقل (مثلاً، كان معدل FID للإشعاع العالي 107.34)، وكان الغطاء النباتي أكثر وضوحًا؛ بينما كان العكس صحيحًا في ظل درجات الحرارة المنخفضة والإشعاع المنخفض، وكان تأثير المحاكاة أسوأ قليلاً.

صور الأقمار الصناعية التي تم إنشاؤها بواسطة SD3-FT لمناطق مختلفة في ظل ظروف مناخية قاسية

في مهمة إنشاء صورة متعددة الشروط، يتفوق إنشاء الصورة متعددة الشروط مع ControlNet على نموذج تحويل النص إلى صورة في جميع المؤشرات.على سبيل المثال، مُعرّف الخطأ النهائي (FID) لشبكة SD3 ControlNet هو 48.20. بالإضافة إلى ذلك، تُظهر الصورة المُولّدة والصورة الآنية محاذاة مكانية قوية، مع الحفاظ على السمات الجغرافية الرئيسية مع مراعاة تغيرات مناخية محددة. كما هو موضح في الشكل التالي:


في اختبار المتانة، كان لنوع الغطاء الأرضي تأثير أكبر على استقرار إنشاء النموذج.تتميز الأنواع الشائعة، مثل المراعي والسافانا، بثبات عالٍ في التوليد ومعامل FID منخفض؛ بينما تتميز الأنواع المعقدة أو النادرة، مثل الأراضي الرطبة والمدن، بمعامل FID أعلى، مثل 284.65 للمدن، وذلك بسبب نقص بيانات التدريب. بالإضافة إلى ذلك، يتميز أداء النموذج في مجموعة الاختبار من 2017 إلى 2024 بالاستقرار، ولا يوجد أي انخفاض في الأداء في مجموعة بيانات 2023 إلى 2024، مما يثبت أن النموذج المصمم لا يزال يتمتع بقدرة عالية على التكيف مع السيناريوهات المكانية والزمانية غير المرئية.
باختصار، يُقدّم EcoMapper إطارًا توليديًا لمحاكاة صور الأقمار الصناعية استنادًا إلى متغيرات المناخ، بهدف نمذجة كيفية استجابة المناظر الطبيعية للطقس وتغير المناخ على المدى الطويل. يتيح هذا فرصًا جديدة لتصور آثار تغير المناخ، واستكشاف السيناريوهات، وتحسين النماذج اللاحقة التي تدمج بيانات الأقمار الصناعية والمناخ، مثل التنبؤ بغلة المحاصيل، ومراقبة استخدام الأراضي، أو ملء صور المناطق الغائمة.
تفتح خوارزميات التعلم الآلي نموذجًا جديدًا لتوليد صور الأقمار الصناعية
يحقق تطبيق النماذج التوليدية في توليد صور الأقمار الصناعية تقدمًا ملحوظًا من خلال تقنية التعلم العميق، التي تجمع بين قدرات التعلم العميق للشبكات العصبية وبيانات الأقمار الصناعية الضخمة لتوليد صور استشعار عن بُعد واقعية وعالية الدقة ومتعددة الوسائط. بالإضافة إلى ما سبق، لطالما شكل مجتمع البحث في هذا المجال سباق تتابع، ومن خلال الابتكار المستمر للأساليب والمناهج، مهّد هذا المجتمع طريقًا متينًا للبحث في مجال صور الأقمار الصناعية.
على سبيل المثال، يعد DiffusionSat المذكور في المقال أول نموذج انتشار واسع النطاق مصمم خصيصًا لصور الأقمار الصناعية، وهو يدعم المدخلات متعددة الأطياف وتوليد السلاسل الزمنية والدقة الفائقة.ويستخدم بشكل مبتكر البيانات الوصفية مثل الموقع الجغرافي كمعلومات مشروطة لحل مشكلة عدم وجود تعليقات نصية في صور الأقمار الصناعية.تم نشر البحث ذي الصلة من قبل فريق من جامعة ستانفورد، بعنوان "DIFFUSIONSAT: نموذج أساسي توليدي لصور الأقمار الصناعية"، وتم تضمينه في ICLR 2024.
عنوان الورقة:
https://arxiv.org/pdf/2312.03606
بالإضافة إلى ذلك، نشر فريق من جامعة بكين للملاحة الجوية والفضائية دراسة بعنوان "ميتا إيرث: نموذج أساسي توليدي لتوليد صور الاستشعار عن بُعد على نطاق عالمي". واقترحوا نموذج توليد عالمي يُسمى ميتا إيرث.من خلال إطار العمل المتتالي الذاتي الموجه بالدقة، يتمكن النموذج من إنشاء صور جغرافية عالية الدقة من صور منخفضة الدقة على مراحل.يتم استخدام نافذة الانزلاق واستراتيجية مشاركة الضوضاء لتحقيق خياطة بلا حدود.
عنوان الورقة:
https://arxiv.org/pdf/2405.13570
بالإضافة إلى ذلك، أظهر باحثون من معهد ماساتشوستس للتكنولوجيا، وجامعة كولومبيا، وجامعة أكسفورد، وفرق أخرى، التقدم البحثي في النماذج البصرية التوليدية في توليف صور الأقمار الصناعية لأغراض التصور المتعلق بتغير المناخ. واقترحوا طريقة تُسمى محرك ذكاء الأرض (EIE).الجمع بين إسقاطات نموذج الفيضانات القائمة على أساس مادي وصور الأقمار الصناعية كمدخلات لنموذج مرئي توليدي عميق،يتحقق ذلك من خلال تقييم تقاطع الصورة المُولَّدة مع بيانات الفيضان. تُظهر النتائج أن الطريقة تُحقق أداءً جيدًا من حيث الاتساق الفيزيائي وجودة الصورة، متفوقةً على النموذج الأساسي دون شروط فيزيائية، وتتميز بقدرات تعميمية لمختلف بيانات الاستشعار عن بُعد والأحداث المناخية. عنوان البحث هو "توليد صور أقمار صناعية متسقة فيزيائيًا لتصورات المناخ".
عنوان الورقة:
https://arxiv.org/html/2104.04785v5
لا شك أن النماذج التوليدية تُعيد صياغة نطاق إنتاج صور الأقمار الصناعية وتطبيقاتها، بدءًا من الإنذار بالفيضانات وصولًا إلى نماذج الأسطح التوليدية العالمية، ومن دمج البيانات متعددة الأطياف إلى المحاكاة الديناميكية المكانية والزمانية، وهو ما لا يُظهر فقط إنجازات تكنولوجية متقدمة، بل يُظهر أيضًا إمكانات تطبيقية هائلة. أعتقد أنه في المستقبل القريب، ومع مواصلة تحسين تقنيات مثل نماذج الانتشار وأطر التتابع الذاتي، من المتوقع أن تُعطي النماذج التوليدية زخمًا أكبر لتطوير صور الأقمار الصناعية.
مراجع:
1.https://arxiv.org/pdf/2312.03606
2.https://arxiv.org/html/2104.04785v5
3.https://arxiv.org/pdf/2405.13570