في إطار تطوير أكبر مجموعة بيانات أوامر الاستشعار عن بعد حتى الآن، اقترحت شركة IBM Research وشركات أخرى نموذج VLM مصمم خصيصًا لبيانات مراقبة الأرض، والذي تم اختياره لـ CVPR 2025

يشهد مجال مراقبة الأرض موجة ثورية من التطورات ويزداد أهميته كل يوم. ومن منظور حجم الصناعة، أظهر تقرير المنتدى الاقتصادي العالمي الصادر في مايو 2024 أنومن المتوقع أن ترتفع قيمتها الاقتصادية المحتملة من 266 مليار دولار في عام 2023 إلى أكثر من 700 مليار دولار في عام 2030.لقد أولت العديد من البلدان والمنظمات الدولية أهمية استراتيجية لمراقبة الأرض منذ فترة طويلة، ووضعت خططًا نشطة لذلك.
ومع ذلك، تواجه تكنولوجيا مراقبة الأرض صعوبات في معالجة البيانات المعقدة. إن أنظمة تحليل صور الأقمار الصناعية التقليدية بطيئة في معالجة بيانات الاستشعار عن بعد متعددة المصادر ولديها أوجه قصور في تحليل المساحة الجغرافية والأبعاد الطيفية. لقد حققت نماذج الرؤية واللغة (VLMs) تقدمًا كبيرًا في مجال التفسير البصري العام، ولكن من الصعب التعامل مع النماذج العامة عند مواجهة بيانات مراقبة الأرض.نظرًا لأن أبعادها الجغرافية المكانية والطيفية والزمانية الفريدة تفرض متطلبات أعلى على النماذج، فإن حتى النماذج الملكية المتقدمة تكون أقل دقة في معالجة بيانات الاستشعار عن بعد المحددة.
في السابق، تم إطلاق نماذج VLM لمجالات محددة من رصد الأرض، مثل RS-GPT وGeoChat، ولكنها تعاني من قيود في معالجة الصور عالية الدقة، والتحليل متعدد الأطياف ومتعدد الأزمنة، وما إلى ذلك. في هذا السياق، تعمل IBM Research، وجامعة الإمارات للذكاء الاصطناعي، والجامعة الوطنية الأسترالية، وجامعة لينكوبينج في السويد، وغيرها.تم إطلاق EarthDial بشكل مشترك، وهو عبارة عن VLM محادثة يمكنه معالجة صور الاستشعار عن بعد متعددة الدقة ومتعددة الأطياف ومتعددة الأوقات بشكل موحد، وتحويل الملاحظات المعقدة للأرض متعددة الحواس بشكل مبتكر إلى حوارات تفاعلية باللغة الطبيعية لدعم مجموعة متنوعة من مهام الاستشعار عن بعد.قام فريق البحث ببناء مجموعة بيانات ضخمة تضم أكثر من 11.11 مليون زوج من التعليمات، تغطي مجموعة متنوعة من الوسائط متعددة الأطياف، مما وضع أساسًا متينًا للقدرات القوية للنموذج.
وقد تم اختيار نتائج البحث ذات الصلة، والتي تحمل عنوان "EarthDial: تحويل الملاحظات الأرضية متعددة الحواس إلى حوارات تفاعلية"، لـCVPR 2025.
أبرز الأبحاث:
* EarthDial هو جهاز VLM محادثة يمكنه معالجة صور الاستشعار عن بعد متعددة الأطياف ومتعددة الزمن ومتعددة الدقة لتلبية احتياجات مهام مراقبة الأرض المتنوعة.
* قدمت هذه الدراسة أكبر مجموعة بيانات لضبط تعليمات الاستشعار عن بعد، والتي تحتوي على أكثر من 11.11 مليون زوج من التعليمات، وتغطي وسائط متعددة، مما يعزز بشكل كبير قدرات فهم النموذج وتعميمه.
* أظهرت التجارب أن EarthDial يعمل بشكل جيد في 44 مهمة مراقبة للأرض في اتجاه مجرى النهر، مما يظهر دقة أعلى وقدرة تعميم أفضل من أجهزة VLM الخاصة بالمجال الموجودة.

عنوان الورقة:
يجمع مشروع المصدر المفتوح "awesome-ai4s" أكثر من 100 تفسير لورقة AI4S ويوفر أيضًا مجموعات بيانات وأدوات ضخمة:
https://github.com/hyperai/awesome-ai4s
مجموعة البيانات: أكثر من 10 ملايين تعليمة، تغطي دقة متعددة ومعلومات الموقع الجغرافي
في مجال تكنولوجيا مراقبة الأرض، تشكل تعقيدات أبعاد البيانات وتنوع سيناريوهات المهمة تحديات شديدة لقدرة النماذج على التعميم. من أجل التغلب على عنق الزجاجة في أداء النماذج التقليدية في معالجة بيانات الاستشعار عن بعد متعددة الوسائط ومتعددة الدقة ومتعددة الزمن،قامت EarthDial ببناء مجموعة بيانات واسعة النطاق EarthDial-Instruct خصيصًا لمجال الاستشعار عن بعد، والتي تحتوي على أكثر من 11 مليون زوج من التعليمات المهنية.تركز استراتيجية التدريب المسبق لهذه المجموعة من البيانات على بناء قدرات التعميم عبر الوسائط والدقة والفترات الزمنية. من خلال اختيار أزواج الأسئلة والأجوبة عالية الجودة من منصات احترافية مثل SkyScript وSatlasPretrain، فإنه يدمج بيانات الاستشعار عن بعد غير المتجانسة متعددة المصادر مثل الصور البصرية Sentinel-2، وبيانات الرادار ذو الفتحة التركيبية Sentinel-1، والصور الجوية NAIP، وصور الأقمار الصناعية Landsat، ويقوم في نفس الوقت بتكوين معلومات العلامة الجغرافية.
من حيث مراقبة جودة البيانات،قام فريق البحث بتنفيذ آلية التصفية الثلاثية:أولاً، تتم إزالة العينات المتفرقة التي تحتوي على أقل من 3 حقول تسمية. ثانيًا، يتم استبعاد البيانات غير الصالحة استنادًا إلى توزيع قيمة السطوع الطيفي والتغطية الجغرافية. أخيرًا، وبمساعدة نموذج InternLM-XComposer2، يتم إنشاء أزواج تعليمات الأسئلة والأجوبة القياسية تلقائيًا وفقًا للعناصر الجغرافية للصورة. يضع نظام تنقية البيانات هذا أساسًا متينًا للنموذج لفهم الاختلافات في السمات الطيفية وخصائص الدقة المكانية وقوانين تغيير الانعكاس الزمني لبيانات الاستشعار عن بعد.
بهدف تلبية احتياجات التطبيق العملي، قامت EarthDial ببناء نظام تعليمات متطور للمهام اللاحقة.يغطي 10 مهام أساسية و6 وسائط بصرية ونوعين من المراحل.
في مهمة تصنيف المشهد،قدم فريق البحث مجموعة بيانات BigEarthNet للتعامل مع مشاكل تصنيف الغطاء السطحي المعقدة، واستخدم مجموعة بيانات FMoW متعددة الأوقات لتحقيق التعرف الديناميكي على تغيرات استخدام الأراضي، ودمج بيانات تقسيم المناطق المناخية المحلية مع مجموعة بيانات سلسلة TreeSatAI الزمنية لتنفيذ تصنيف تأثير جزيرة الحرارة الحضرية وتحديد توزيع أنواع أشجار الغابات، وحل مشكلة عدم كفاية قدرة التعميم للنماذج التقليدية في المجالات المهنية ذات العينات الصغيرة بشكل فعال.
في مهمة اكتشاف الهدف،قام فريق البحث بتصميم نظام تعليمي يتضمن ثلاثة أنواع من العلامات: المرجع والتعريف وتحديد المواقع، وتغطية الصور متعددة الوسائط مثل الصور البصرية، والرادارات ذات الفتحة الصناعية، والأشعة تحت الحمراء، وتحقيق تحديد المواقع المكانية الدقيقة ووصف الميزات من خلال تحديد السمات الرئيسية للهدف.
تعمل مهام الإجابة على الأسئلة المرئية ووصف الصور على بناء مجموعات تعليمات مركبة من خلال دمج مجموعات البيانات متعددة المصادر.تحسين تنوع المهام وأداء معالجة النموذج بشكل كبير.تعتمد مهمة اكتشاف التغيير على استراتيجية دمج مجموعات البيانات المتعددة.وباستخدام تحليل التسلسل اليدوي، تم إنشاء إطار وصف موحد.
استجابة للاحتياجات الخاصة لاكتشاف سحب الميثان، صمم فريق البحث قالبًا للمحادثة يعتمد على مجموعة بيانات STARCOP لتحقيق توجيه دقيق للهدف؛ عملت دراسة تأثير جزيرة الحرارة الحضرية على عكس المؤشرات الحرارية الرئيسية من خلال بيانات الصور، وإنشاء نموذج تصنيف إقليمي وتوليد تعليمات التحليل الموضوعي؛ دمجت وحدة تقييم الكوارث مجموعة بيانات كارثة الزلزال xBD وبيانات تسلسل الزلزال QuakeSet لإنشاء نظام تعليمات مخصص لتحليل مستوى الكارثة وتقييم التأثير بعد الزلزال.

EarthDial: نموذج مخصص للمعالجة الموحدة لبيانات الاستشعار عن بعد متعددة الدقة ومتعددة الأطياف ومتعددة الأزمنة
يمكن تطبيق EarthDial بشكل مرن على مهام مثل التصنيف والتحديد البصري واكتشاف التغيير.ويعتمد على نماذج اللغة البصرية للصور الطبيعية المتقدمة (VLMs).من خلال الضبط الدقيق متعدد المراحل، يتم توسيع القدرات، مع تحسين InternVL باعتباره الهندسة المعمارية، لدعم البيانات متعددة الأطياف ومتعددة الأوقات.
كما هو موضح في الشكل أدناه،يتكون النموذج من ثلاثة مكونات: مشفر مرئي، وجهاز عرض طبقة MLP وLLM.يتم ربط المشفر المرئي مع LLM من خلال MLP ككتلة اتصال لتعيين العلامات المرئية في مساحة LLM.
وفي الوقت نفسه، يتمتع النموذج بتصميم خفيف الوزن مع 4 مليارات معلمة فقط. مع ضمان التشغيل الفعال، يمكنه أيضًا استقبال أنواع متعددة من مجموعات بيانات الاستشعار عن بعد وإنشاء محتوى حواري دقيق للاستشعار عن بعد. ومن بينها، يستخدم المشفر البصري InternViT-300M خفيف الوزن المقطر من InternViT الذي يحتوي على 6 مليارات معلمة لضمان قدرات تشفير بصرية قوية؛ يمنح برنامج Phi-3-mini LLM المدرب مسبقًا النموذج قدرات ممتازة على فهم اللغة وتوليدها؛ إن كتلة اتصال MLP البسيطة تبني جسرًا فعالًا بين المساحات البصرية واللغوية.
أيضًا،لقد أصبح إضافة وحدتين أساسيتين، الدقة العالية التكيفية ودمج البيانات، بمثابة المفتاح لمعالجة النموذج لبيانات الاستشعار عن بعد المعقدة.تعتمد الوحدة التكيفية عالية الدقة على الإستراتيجية الديناميكية لـ InternVL 1.5. من خلال تقسيم الصورة إلى مربعات وإنشاء صور مصغرة، فإنه لا يحتفظ بتفاصيل الصورة عالية الدقة فحسب، بل يوفر أيضًا فهمًا شاملًا للمشهد. تستخدم وحدة دمج البيانات استراتيجيات مثل معالجة القنوات وتجميع الميزات وتقليل الأبعاد للبيانات متعددة الأطياف والبيانات ذات الفتحة التركيبية وغيرها من البيانات لدمج الميزات المرئية والنصية بشكل عميق، مما يحسن بشكل كبير من أداء النموذج في المهام المعقدة.

أثناء مرحلة التدريب، يستخدم EarthDial استراتيجية مكونة من ثلاث مراحل لتحسين الأداء تدريجيًا:
المرحلة الأولى هي مرحلة ما قبل التدريب على المحادثة RS.في هذه المرحلة، يتم استخدام 7.6 مليون زوج من الصور والنصوص من مجموعات البيانات مثل Satlas وSkyscript للتدريب المسبق لإنشاء قدرات محاذاة الرؤية والنص.
المرحلة الثانية هي الضبط الدقيق لـ RS RGB والزمن.تعمل هذه المرحلة على ضبط بيانات RGB والبيانات الزمنية وتحسين طبقات MLP وLLM.
المرحلة الثالثة هي الضبط الدقيق متعدد الأطياف والرادار ذو الفتحة الاصطناعية (RS Multispectral and SAR Finetuning).تم توسيع هذه المرحلة لتشمل البيانات متعددة الأطياف وبيانات الرادار ذات الفتحة التركيبية، مع ضبط طبقات MLP وLLM.
وتتسم هذه المراحل الثلاث من التدريب بالتقدم، حيث تمنح EarthDial القدرة القوية على تحليل بيانات مراقبة الأرض وقدرات تنفيذ المهام، مما يحقق اختراقات مبتكرة في مجالات مثل مراقبة البيئة والاستجابة للكوارث.

النتائج التجريبية: تتفوق المهام المتعددة على النماذج الحالية وتؤدي أداءً جيدًا في معالجة تحليل التسلسل ثنائي الطور ومتعدد المراحل
وفي التجارب، أظهر نموذج EarthDial أداءً ممتازًا في مجموعة متنوعة من سيناريوهات التطبيق. ويغطي بيانات الصور مثل RGB والتصوير متعدد الأطياف والتصوير بالرادار ذي الفتحة الاصطناعية والأشعة تحت الحمراء والتصوير الحراري، ويقيم المهام مثل تصنيف المشهد واكتشاف الكائنات والإجابة على الأسئلة البصرية (VQA) ووصف الصورة واكتشاف التغيير واكتشاف أعمدة الميثان.
في مهمة تصنيف المشهد،من خلال تقييم اللقطة الصفرية، تعمل EarthDial على تحسين أداء VLMs الموجودة على مجموعات بيانات متعددة بشكل كبير، وخاصة على مجموعات الاختبار fMoW وxBD.
في مهمة اكتشاف الهدف،يتفوق EarthDial على نماذج مثل GPT-4o و InternVL2-4B و GeoChat في المهام الفرعية الثلاث الخاصة باكتشاف الهدف المرجعي ووصف المنطقة ووصف الموقع، كما يعمل بشكل جيد بشكل خاص في مهام وصف الموقع ومجموعات بيانات صور الرادار ذات الفتحة الاصطناعية.
لوصف الصورة ومهام VQA،يتفوق EarthDial على النماذج الحالية على مجموعات البيانات ذات الصلة. في مهمة VQA، يتم تقييم EarthDial باستخدام مجموعات البيانات RSVQA-LRBEN وRSVQA-HRBEN، ولديه ميزة في معظم الفئات.
في مهمة اكتشاف التغيير،تعمل EarthDial على معالجة البيانات الزمنية بشكل فعال من خلال استراتيجيات دمج البيانات، مما يوضح قدرات قوية في تفسير البيانات الزمنية والاستجابة لها.
في مهام تقييم الكوارث،استنادًا إلى 8 مهام فرعية من مجموعة بيانات xBD، يتفوق EarthDial باستمرار على VLMs الموجودة في المهام الفرعية مثل مجموعة اختبار تصنيف الصور 1. في مجموعة بيانات QuakeSet، باستخدام صور SAR للتنبؤ بالزلازل، حقق EarthDial دقة 57.53%، متجاوزًا GPT-4o.
من حيث معالجة البيانات متعددة الوسائط،يعمل EarthDial على تحسين أداء GPT-4o بشكل كبير في مهام التصنيف والكشف عن الأجسام التمثيلية للصور متعددة الأطياف والأشعة تحت الحمراء RGB والصور ذات الفتحة الاصطناعية، مما يسلط الضوء على فعالية استراتيجية الاندماج متعددة النطاقات.
في تجربة جزيرة الحرارة الحضرية (UHI)،يحقق EarthDial دقة تبلغ 56.77% ويمكنه تحديد اتجاهات درجات الحرارة في نطاق Landsat8، وهو أفضل من 22.68% في GPT-4o.
في مهمة تصنيف عمود الميثان،وباستخدام مجموعة بيانات STARCOP، حقق EarthDial دقة قدرها 77.09%، وهو تحسن قدره 32.16% مقارنة بـ GPT4o.
ثورة الذكاء الاصطناعي في مراقبة الأرض: تحول نموذجي من جمع البيانات إلى اتخاذ القرارات الذكية
في ظل موجة التحول الرقمي العالمي، تقود تقنية الذكاء الاصطناعي تغييرات عميقة في مجال مراقبة الأرض. بفضل الاختراقات التكنولوجية مثل النماذج الكبيرة متعددة الوسائط والمعالجة الذكية في المدار، تسارع هذا المجال في التحول من جمع البيانات التقليدي إلى نظام ذكي مغلق الحلقة من "الإدراك والمعرفة واتخاذ القرار"، ليصبح البنية الأساسية الأساسية التي تدعم التنمية المستدامة العالمية.
أولا، تعمل التطورات التكنولوجية على دفع الصناعة من التسجيل السلبي إلى التدخل النشط. يدمج نموذج TerraMind الذي تم تطويره بشكل مشترك من قبل وكالة الفضاء الأوروبية وشركة IBM ثمانية أنواع من مصادر البيانات غير المتجانسة.لقد أصبح أول نموذج أساسي متعدد الوسائط في العالم لمراقبة الأرض.وتستكمل تقنية الاستدلال النموذجي الخاصة بها البيانات بشكل ذكي في مراقبة تسربات الميثان في التندرا السيبيرية، مما يحسن دقة التنبؤ بمقدار 20% ويقلل استهلاك الطاقة الحاسوبية بمقدار 50%؛ في سيناريو مراقبة الغابات المطيرة في الأمازون، يستخدم قدرات توليدية لإصلاح الصور المفقودة تلقائيًا وتحقيق المراقبة في جميع الأحوال الجوية.
يقوم نموذج "Space Lingmou" 3.0 لمعهد أبحاث ابتكار معلومات الفضاء التابع للأكاديمية الصينية للعلوم ببناء نظام تفسير كامل الارتباط مع عشرات المليارات من المعلمات.تم تحسين الدقة بمقدار 4-10% مقارنة بالنموذج التقليدي.ويتم تطبيقه أيضًا على سيناريوهات مثل التقييم البيئي لمنطقة شيونجان الجديدة. وفيما يتعلق بالمعالجة الذكية في المدار، أدى التحديث الذكي لحمولات الأقمار الصناعية إلى تحقيق اختراقات في قدرات الحوسبة الحافة. يحمل قمر Φsat-2 التابع لوكالة الفضاء الأوروبية ست وحدات تطبيقية للذكاء الاصطناعي، بما في ذلك نظام مراقبة حرائق الغابات الذي يلتقط مواقع الحرائق في الوقت الحقيقي وخوارزميات تحدد بسرعة التهديدات البيئية. وتساعد هذه الاختراقات التكنولوجية مراقبة الأرض على التحرك نحو اتخاذ القرارات في الوقت الفعلي.
ثانياً، تتمتع تقنية الذكاء الاصطناعي بمجموعة واسعة من سيناريوهات التطبيق في مجال مراقبة الأرض، حيث تحقق تغطية كاملة من المراقبة الكلية إلى الحوكمة الجزئية. وفيما يتعلق بالحوكمة المناخية والبيئية،TerraMind هو نموذج ذكاء اصطناعي متقدم لمراقبة الأرض تم تطويره بواسطة وكالة الفضاء الأوروبية (ESA) وIBM Research Europe.تم تحقيق دقة تحديد المواقع على مستوى المتر من خلال دمج بيانات الأقمار الصناعية Sentinel مع شبكات الاستشعار الأرضية في مراقبة خطوط أنابيب الغاز الطبيعي في سيبيريا، كما زادت دقة التنبؤ باتجاه التسرب بمقدار 30%؛ يجمع نظام Global Forest Watch 3.0 التابع لوكالة ناسا وجوجل بين عمليات التفتيش بالذكاء الاصطناعي والطائرات بدون طيار.تم التعرف بنجاح على 87% من مناطق قطع الأشجار غير القانونية في حوض الكونغو،إنشاء "سياج رقمي" قوي لحماية الغابات المطيرة الاستوائية.
* رابط الورقة:
https://doi.org/10.1016/j.rse.2021.112470
في مجال الاستجابة للكوارث والتخطيط الحضري، أكمل نموذج الاستشعار عن بعد للذكاء الاصطناعي AIE-SEG التابع لأكاديمية علي بابا دامو تقييم الأضرار التي لحقت بالمباني في منطقة الكارثة في غضون 3 ساعات خلال زلزال تركيا عام 2024.الكفاءة أعلى بـ 50 مرة من التحليل اليدوي التقليدي؛يقوم نموذج التنبؤ المكاني الزمني الذي طوره فريق جامعة تسينغهوا بمحاكاة حركة تدفق الهواء في ممرات التهوية الحضرية، مما يوفر دعمًا كميًا لاتخاذ القرارات فيما يتعلق بالتخطيط الحضري في بكين. وفي مجال الزراعة وإدارة الموارد، يتم حالياً تنفيذ مشروع Microsoft Project Premonition كمشروع تجريبي في ولاية أندرا براديش بالهند.تؤدي توصيات البذر الدقيق المستندة إلى الذكاء الاصطناعي إلى زيادة غلة المحاصيل بمقدار 30% لكل هكتار.توفير دعم البيانات في الوقت الحقيقي للزراعة الذكية.
وأخيرا، فيما يتعلق بالبناء البيئي، يتقدم التعاون بين الصناعة والجامعات والبحث والحوكمة العالمية في مجال مراقبة الأرض بشكل مطرد، كما يتحسن بناء البيئة مفتوحة المصدر وسلاسل الأدوات باستمرار. على سبيل المثال،يفتح Google Earth AI واجهة API،مساعدة المطورين العالميين على الوصول إلى قدرات المعالجة الذكية لبيانات الأقمار الصناعية وخفض عتبة تطبيق التكنولوجيا. وتستخدم مبادرة الأمم المتحدة "الذكاء الاصطناعي من أجل الخير" الذكاء الاصطناعي لمكافحة الكوارث الطبيعية، وتلتزم بوضع معايير عالمية موحدة لتقييم الكوارث، وتعزز قابلية التشغيل البيني للبيانات والتعاون التقني.
ويظهر هذا أن تقنية الذكاء الاصطناعي تدفع مراقبة الأرض من "التسجيل السلبي" إلى "التدخل النشط". وفي المستقبل، ومع دمج التقنيات مثل النماذج الكبيرة متعددة الوسائط، والمعالجة الذكية في المدار، والحوسبة الكمومية، من المتوقع أن تصبح مراقبة الأرض حجر الزاوية الرقمي الذي يدعم القضايا العالمية مثل الحياد الكربوني، والوقاية من الكوارث والتخفيف من آثارها، وإدارة الموارد، وكتابة فصل جديد من التنمية المستدامة في العلاقة التكافلية بين البشر والطبيعة.
المقالات المرجعية:
1.https://www.thepaper.cn/newsDetail_forward_30704895
2.https://mp.weixin.qq.com/s/i_Ar0RJ7g32s1ckCq81P-Q