Command Palette
Search for a command to run...
استنادًا إلى قاعدة بيانات Gemini، التي تعالج الأخبار من 150 دولة، أصدرت جوجل مجموعة بيانات الفيضانات مفتوحة المصدر Groundsource، والتي تغطي أكثر من 2.6 مليون سجل تاريخي.

من بين الكوارث الطبيعية المختلفة حول العالم، تُعد الفيضانات من الأنواع القليلة التي تجمع بين تكرار حدوثها وقوتها التدميرية الهائلة، ولذلك لطالما شكلت قضية محورية في مجالات علم المياه، وعلوم المناخ، وإدارة الكوارث. وتشمل هذه المجالات تحسين نماذج التنبؤ الهيدرولوجي وتحليل تأثير تغير المناخ على تطور الفيضانات، وتقييم مخاطر الفيضانات المستقبلية، وتحسين أنظمة الوقاية من الكوارث والتخفيف من آثارها.تعتمد جميع الدراسات ذات الصلة تقريباً على نفس الشرط الأساسي - بيانات الفيضانات التاريخية عالية الجودة.تُعد هذه البيانات بمثابة مرجع رئيسي للتحقق من موثوقية النموذج وأساس مهم لدعم تقييم المخاطر وقرارات السياسة العامة.
تنتشر محطات الرصد الهيدرولوجية والأرصادية التقليدية على نطاق ضيق، وتتفاوت جودة البيانات، مما يُصعّب جمع معلومات دقيقة وواسعة النطاق عن الفيضانات. حاليًا، تُعدّ مجموعات بيانات الفيضانات الشاملة نادرة جدًا. ورغم أن قاعدة بيانات أحداث العواصف التي يُديرها المركز الوطني الأمريكي للمعلومات البيئية تُعدّ مثالًا نموذجيًا، إلا أن هذه السجلات المنهجية لا تزال نادرة عالميًا، ولم تُنشئ العديد من الدول قواعد بيانات طويلة الأجل لأحداث الفيضانات. لذلك، تُعاني مجموعات بيانات الفيضانات العالمية الحالية عمومًا من قصور في التغطية واكتمال السجلات.
تجدر الإشارة إلى أن كمًّا هائلًا من المعلومات حول الفيضانات كان مُشتتًا منذ زمن طويل ضمن نصوص غير مُهيكلة، مثل التقارير الإخبارية والوثائق الحكومية. ورغم محاولات الأبحاث السابقة استخلاص البيانات من هذه المصادر، إلا أن محدودية توحيد النصوص وارتفاع تكاليف المعالجة اليدوية حالت دون تطبيقها على نطاق واسع. وقد أتاحت التطورات الحديثة في مجال الذكاء الاصطناعي التوليدي مسارًا جديدًا وواعدًا لمعالجة هذه المشكلة.
في الآونة الأخيرة، قامت جوجل ريسيرش بنشر مجموعة بيانات الفيضانات Groundsource مفتوحة المصدر، والتي تستخرج معلومات أرضية موثقة من بيانات غير منظمة، مما يتيح رسم خرائط لآثار الكوارث التاريخية بدقة غير مسبوقة.قام الباحثون بأتمتة معالجة أكثر من 5 ملايين تقرير إخباري من أكثر من 150 دولة، وجمعوا في النهاية أكثر من 2.6 مليون سجل لأحداث الفيضانات التاريخية.يوفر هذا النظام نطاقًا وتغطية غير مسبوقين للبيانات لأبحاث الفيضانات العالمية.
في الوقت الحالي،"تتوفر الآن مجموعة بيانات أحداث الفيضانات العالمية من Groundsource على موقع HyperAI الإلكتروني (hyper.ai) في قسم مجموعات البيانات.الاستخدام عبر الإنترنت:

عنوان الورقة:
https://eartharxiv.org/repository/view/12083/
تابع حسابنا الرسمي على WeChat وأجب بكلمة "Groundsource" في الخلفية للحصول على ملف PDF كامل.
استنادًا إلى 5 ملايين مقال إخباري، تم فحص أكثر من 2.6 مليون تقرير عن الفيضانات.
تم بناء مجموعة بيانات Groundsource باتباع عملية آلية موحدة. خلال مرحلتي جمع البيانات العالمية والتعرف على الكيانات، استخدم فريق البحث بعضًا من بنية جوجل التحتية، مثل نظام التعرف على الكيانات المسماة WebRef وأداة القراءة بصوت عالٍ. مع ذلك، فإن منطق استخراج البيانات، وإطار اقتراح نموذج اللغة الشامل، وقواعد التجميع المكاني والزماني موثقة جميعها بشكل علني. لذا، يمكن إعادة إنتاج هذه العملية في بيئات تقنية مختلفة بعد استبدالها بخوارزميات مفتوحة المصدر أو نماذج لغوية أخرى.
يبدأ بناء البيانات بجمع المعلومات الإخبارية.استخدم فريق البحث برامج زحف الويب لجمع التقارير الإخبارية المتاحة للجمهور والمنشورة منذ عام 2000، واستخدم WebRef لحساب درجة ملاءمة موضوع الفيضانات لكل مقال.حدد الباحثون العتبة عند 0.6.الفحص الأوليما يقرب من 9.5 مليون صفحة ويبومع ذلك، كشف أخذ العينات اليدوي أن نصفهم فقط أبلغوا فعلياً عن أحداث الفيضان، بينما تم ذكر الباقي في الخلفية فقط.
ثم تأتي مرحلة استخراج النص.يقوم النظام تلقائيًا بإزالة الإعلانات وعناصر التنقل من صفحات الويب، مع الاحتفاظ فقط بنص المقالة وتاريخ النشر، ويقوم بتصفية اللغات غير القابلة للتحليل أو مواقع الويب التي لا يمكن الوصول إليها.بلغ العدد النهائي للقطع القابلة للاستخدام حوالي 7.5 مليون قطعة.سيتم ترجمة جميع النصوص غير الإنجليزية إلى اللغة الإنجليزية، وسيتم استخراج أسماء المواقع الجغرافية من خلال التعرف على الكيانات لتشكيل قاعدة بيانات للمواقع المرشحة.
يُعدّ تحديد أحداث الفيضانات المحددة من النصوص الإخبارية الجزء الأكثر تعقيدًا في العملية برمتها. غالبًا ما تحتوي التقارير على مواقع متعددة وتعبيرات زمنية غامضة، مثل "أمس" أو "الأسبوع الماضي". لذلك،قام فريق البحث بتصميم إطار عمل اقتراح منظم لنموذج اللغة الكبير Gemini واختبره باستخدام 250 مقالة تم شرحها يدويًا.استخدم النموذج خدمة Google Read Aloud لاستخراج النصوص الخام من 80 لغة، ثم قام بتطبيعها إلى اللغة الإنجليزية عبر واجهة برمجة تطبيقات الترجمة السحابية. بعد ذلك، نفّذ النموذج أربع مهام بالتتابع: تحديد ما إذا كانت المقالة تصف حدث فيضان حقيقي، واستخراج وقت الحدث وتطبيعه، وتحديد المواقع المحددة المتضررة من الفيضان، ومطابقة أسماء الأماكن مع المعرفات الجغرافية القياسية.
في إطار هذه العملية،من بين 7.5 مليون مقال، تم تحديد ما يقرب من 5 ملايين مقال على أنها تحتوي على أحداث فيضانات حقيقية.استنادًا إلى عينات مصنفة يدويًا، تبلغ دقة التعرف على الأحداث حوالي 75%، بينما تبلغ دقة الاستدعاء حوالي 90%. أما دقة استخراج التاريخ والموقع فهي أقل قليلًا، لكنها لا تزال توفر أدلة مكانية وزمانية فعالة.
لتحديد هذه الأحداث على الخريطة، يقوم النظام أيضًا بتحديد المواقع الجغرافية: إذا كان من الممكن مطابقة كيان جغرافي موجود، يتم استدعاء حدوده المكانية مباشرة؛ إذا لم يتم العثور على تطابق، يتم تحويل اسم المكان إلى إحداثيات من خلال خدمة تحديد المواقع الجغرافية، ويتم إنشاء منطقة عازلة صغيرة إذا لزم الأمر للتحليل المكاني.
وأخيرًا، استنادًا إلى المعرفات الجغرافية والمعلومات الزمنية، قام فريق البحث بدمج السجلات المبلغ عنها تباعًا في أحداث فيضان واحدة، وأجرى عملية ضبط الجودة، حيث أزال السجلات التي كانت واسعة النطاق جدًا أو ذات توقيت غير طبيعي. بعد هذه السلسلة من العمليات،أسفرت النتائج عن أكثر من 2.64 مليون سجل فريد، كل منها يتوافق مع ملاحظة عن فيضان تم التقاطها في التقارير الإخبارية في وقت ومكان محددين.
تقييم مجموعة البيانات: يتمتع حدث 82% بقيمة تحليلية؛ فدقته على مستوى الشارع تسد فجوة في سجلات الكوارث الصغيرة.
لتقييم موثوقية مجموعة بيانات Groundsource، هذاتحلل الدراسة البيانات من ثلاثة جوانب: الدقة، والتوزيع المكاني والزماني، والاتساق مع قواعد البيانات الخارجية.تمت مقارنتها بقاعدتي بيانات رئيسيتين: نظام الإنذار والتنسيق العالمي للكوارث (GDACS) ومرصد دارتموث للفيضانات (DFO).
في تقييم الدقة، اختار الباحثون عشوائيًا 400 سجلًا وتتبعوا مصادر الأخبار الأصلية للتحقق من معلومات الوقت والموقع. وأظهرت النتائج أن السجلات التي كانت "دقيقة" تمامًا شكلت 60% (بفاصل ثقة 95% ± 5%).إذا تم تضمين السجلات ذات التحيزات الطفيفة ولكنها لا تزال ذات قيمة تحليلية، فإنه لا يزال من الممكن استخدام ما يقرب من 82% من الأحداث للتحليل اللاحق.أما الأخطاء المتبقية التي تبلغ حوالي 18% فتنشأ بشكل رئيسي من أخطاء تحديد المواقع المكانية الناتجة عن الغموض في أسماء الأماكن، بالإضافة إلى سوء قراءة التعبيرات الزمنية النسبية مثل "أمس" و"الأسبوع الماضي".
من حيث التوزيع المكاني والزماني، تُظهر مجموعة البيانات "انحيازًا حديثًا" واضحًا.كما هو موضح في الشكل أدناه، تتركز حوالي 641 سجلاً من نوع TP3T بين عامي 2020 و2025، منها 151 سجلاً في عام 2025 وحده. ويُرجح أن يعكس هذا الاتجاه النمو السريع لوسائل الإعلام الإخبارية الرقمية أكثر من كونه زيادة في حوادث الفيضانات نفسها.

يتأثر التوزيع المكاني أيضاً بالبيئة الإعلامية، حيث تُسجّل أحداث أكثر في المناطق ذات التغطية الإخبارية المكثفة، بينما يقلّ تمثيلها في المناطق التي تعاني من ندرة الأخبار الرقمية أو نقص الدعم اللغوي. ومع ذلك، لا تزال البيانات تُظهر بوضوح المناطق المعرضة بشدة للفيضانات، مثل أوروبا وجنوب آسيا وجنوب شرق آسيا.يتوافق توزيعها المكاني بشكل كبير مع مواقع الفيضانات الكبرى التي سجلتها GDACS.

على الرغم من تحيزات الإبلاغ، فإن أداء Groundsource جيد للغاية من حيث الدقة المكانية.تُظهر الإحصائيات أن متوسط تغطية الأحداث المُستخرجة يبلغ 142 كيلومترًا مربعًا، منها 821 سجلًا من نوع TP3T تغطي مساحة أقل من 50 كيلومترًا مربعًا. ويمكن تحسين دقة العديد من الأحداث لتشمل نطاقًا أوسع، كالحي أو المنطقة السكنية، ما يسمح برصد الفيضانات المحلية التي غالبًا ما تتجاهلها قواعد بيانات الكوارث العالمية التقليدية.

في تقييم سلامة البيانات، قارنت الدراسة بيانات Groundsource مع نظام الإنذار والتنسيق العالمي للكوارث (GDACS) ومرصد دارتموث للفيضانات (DFO) من خلال المطابقة المكانية والزمانية. وأظهرت النتائج أنه منذ عام 2020، تراوح معدل استرجاع بيانات أحداث GDACS بين 851 و1001 TP3T؛ وفي المناطق ذات البنية التحتية الإعلامية المتطورة، مثل الولايات المتحدة، بلغ معدل المطابقة 961 TP3T (GDACS) و911 TP3T (DFO) على التوالي. علاوة على ذلك،ترتبط معدلات الاستدعاء ارتباطًا وثيقًا بمدى خطورة تأثير الكوارث: معدلات الاستدعاء لأحداث الفيضانات الكبرى قريبة من أو تتجاوز 90%.

عموماً، على الرغم من أن شركة Groundsource لا تستطيع توفير تغطية عالمية متوازنة تماماً،ومع ذلك، فإنه بفضل أكثر من 2.6 مليون سجل ودقة مكانية عالية، فإنه يعوض عن أوجه القصور في قواعد بيانات الكوارث التقليدية في تسجيل أحداث الفيضانات الصغيرة والمحلية.يوفر هذا مصدراً جديداً للبيانات لأبحاث الفيضانات العالمية.
بحث بيانات الفيضانات المدعومة بالذكاء الاصطناعي
أصبح استخراج معلومات موحدة عن أحداث الفيضانات من النصوص غير المنظمة باستخدام نماذج لغوية كبيرة تدريجياً أسلوباً مهماً في مجال أبحاث الفيضانات.
في الأوساط الأكاديمية، دأبت العديد من فرق البحث على استكشاف هذا الاتجاه باستمرار. اقترح باحثون في معهد ماساتشوستس للتكنولوجيا استراتيجية محسنة للكلمات المفتاحية وطريقة ربط السياق لمعالجة مشكلات الغموض الزمني والغموض في أسماء الأماكن التي تواجهها نماذج اللغة الكبيرة عادةً في استخراج أحداث الفيضانات.من خلال ضبط النموذج باستخدام بيانات الرصد الهيدرولوجي التاريخية، قام الفريق بتحسين دقة استخراج تاريخ حدث الفيضان إلى أكثر من 80% وقام بتطوير وحدة تكييف متعددة اللغات، مما مكن النموذج من التعامل مع النصوص الإخبارية بلغات مختلفة بشكل أكثر استقرارًا، وبالتالي إنشاء مجموعة بيانات لحدث الفيضان تغطي مناطق متعددة.
عنوان الورقة البحثية: توليد صور فضائية متسقة فيزيائياً لتصورات المناخ
رابط الورقة:
https://ieeexplore.ieee.org/document/10758300
قام فريق البحث من جامعة سنغافورة الوطنية بتوسيع نطاق تطبيق أبحاثهم.قام الفريق بدمج أحداث الفيضانات التاريخية المستخرجة من التقارير الإخبارية بواسطة الذكاء الاصطناعي مع بيانات شبكة الصرف الحضري ومعلومات طبوغرافية عالية الدقة لإنشاء نموذج لتقييم مخاطر الفيضانات على نطاق حضري.من خلال تحليل العلاقة بين تواتر الفيضانات ونطاقها في مختلف المناطق والبنية التحتية الحضرية، يتمكن الباحثون من تحديد مناطق الخطر المحتملة بشكل أوضح، وتقديم مراجع أكثر دقة لتخطيط مكافحة الفيضانات في المناطق الحضرية. كما يسعون إلى تقييم الاتجاهات المتغيرة لمخاطر الفيضانات المستقبلية في ظل الظروف المناخية القاسية.
عنوان الورقة البحثية: التنبؤ بالفيضانات العنيفة باستخدام الذكاء الاصطناعي القابل للتطبيق في المناطق التي تعاني من نقص البيانات
رابط الورقة:
https://www.cell.com/the-innovation/fulltext/S2666-6758(24)00090-0
وقد بدأ التقدم المحرز في الأبحاث ذات الصلة يمتد أيضاً إلى الصناعة.دخلت مايكروسوفت للأبحاث في شراكة مع وكالة ناسا لتطوير منصة "Hydroluge Copilot"، وهي منصة للتنبؤ بمخاطر الفيضانات تعتمد على الذكاء الاصطناعي.يدمج هذا النظام بيانات الفيضانات المستخرجة من التقارير الإخبارية، ومعلومات الاستشعار عن بُعد عبر الأقمار الصناعية، وبيانات الرصد الهيدرولوجي في الوقت الفعلي، مستخدمًا نماذج التعلم الآلي للتنبؤ باحتمالية حدوث الفيضانات ونطاق تأثيرها المحتمل. ويجري حاليًا تجريب هذه المنصة في الولايات المتحدة وعدد من الدول الأخرى لدعم إدارات الطوارئ المحلية في تحسين عمليات الإنذار المبكر والاستجابة للفيضانات.
بشكل عام، أصبح استخلاص معلومات الفيضانات تلقائيًا من النصوص الإخبارية مصدرًا مهمًا للبيانات الرصدية التقليدية التكميلية. ومع التحسين المستمر لقدرات النماذج وحجم البيانات، يُتوقع أن يوفر هذا النوع من الأساليب قاعدة بيانات أكثر ثراءً ودقةً لأبحاث مخاطر الفيضانات العالمية.
روابط مرجعية:
1.https://www.geekwire.com/2025/microsoft-nasa-ai-hydrology-copilot-floods








