HyperAI

استنادًا إلى بيانات واقعية من سبع مدن رئيسية، قام فريق جامعة تسينغهوا بإصدار نموذج GPD مفتوح المصدر

特色图像

المدن هي الوطن الذي يعيش فيه الناس ويعملون بسلام ورضا. إنهم حجر الأساس للحكومة لتنفيذ التنمية الاقتصادية وحمل المشاعر الإنسانية الدقيقة والسياق الكبير للتنمية الوطنية. منذ فترة طويلة، كان المديرون يستكشفون أساليب أكثر كفاءة وعلمية للحوكمة الحضرية لحل مشاكل مثل عدم التوازن في إمدادات الموارد، والازدحام المروري، وفقدان السكان في مناطق مختلفة. مع التكرار المتسارع للتقنيات مثل إنترنت الأشياء والذكاء الاصطناعي والبيانات الضخمة، ظهرت المدن الذكية، وبدأت المزيد والمزيد من البلدان في الابتكار استجابة للظروف المحلية.

إذا تم تشبيه بناء مدينة ذكية بـ "بناء منزل"، فإن البيانات المكانية الزمنية هي "الطوب والبلاط" التي لا غنى عنها، ويشكل نموذج التنبؤ المكاني الزمني القائم على البيانات المكانية الزمنية أساسًا مهمًا لإطار عمل المدينة الذكية. كما يوحي الاسم، تسجل البيانات المكانية الزمنية حدوث الأحداث وتغيراتها في بعدين: الزمان والمكان، وتشمل المعلومات الجغرافية، والبيانات الجوية، وبيانات المرور، وبيانات السكان، وبيانات الاستشعار عن بعد عبر الأقمار الصناعية، وما إلى ذلك.

ومع ذلك، ونتيجة لاختلاف مستويات التنمية الحضرية والاختلافات في سياسات جمع البيانات، تفتقر بعض المدن إلى البيانات المكانية الزمنية، مما يجعل من الصعب دعم بناء نماذج التنبؤ. وفي هذا الصدد، تستخدم الأساليب الحالية بشكل أساسي البيانات من المدن المصدرية الغنية بالبيانات لتدريب النماذج وتطبيقها على المدن المستهدفة حيث تكون البيانات نادرة. ومع ذلك، تعتمد هذه العملية في كثير من الأحيان على تصاميم مطابقة معقدة، وتظل كيفية تحقيق نقل المعرفة الأكثر عمومية بين المدن المصدر والمستهدفة تشكل تحديًا مهمًا.

في ضوء مشكلة ندرة البيانات المنتشرة على نطاق واسع في الحوسبة الحضرية،أصدر مركز أبحاث العلوم الحضرية والحوسبة، قسم الهندسة الإلكترونية، جامعة تسينغهوا، أحدث نتائج أبحاثه، "التعلم المكاني الزمني من خلال توليد الشبكة العصبية الانتشارية"، واقترح نموذج الانتشار التوليدي المدرب مسبقًا (GPD).يتم استخدام نموذج الانتشار لتوليد معلمات الشبكة العصبية، وتحويل التعلم الزمني المكاني إلى مشكلة تدريب مسبق لنموذج الانتشار. تم قبول هذا البحث من قبل ICLR2024، وتم توفير البيانات والرمز مفتوح المصدر.

ميزتها هي أنه من خلال التدريب المسبق لنموذج الانتشار، يتم تعلم المعرفة حول تحسين معلمات الشبكة العصبية من بيانات المدينة المصدر، ومن ثم يتم إنشاء شبكة عصبية تتكيف مع المدينة المستهدفة بناءً على المطالبات.

رابط الورقة:
https://openreview.net/forum?id=QyFm3D3Tzi
رابط تحميل مجموعة البيانات:
https://hyper.ai/datasets/30453

اتبع الحساب الرسمي وأجب "Tsinghua GPD" لتحميل الورقة كاملة

مجموعة بيانات الحشود وحركة المرور التي تغطي مدنًا متعددة

أجرى الباحثون تجارب على نوعين من مهام التنبؤ المكاني الزمني - التنبؤ بتدفق الحشود والتنبؤ بسرعة حركة المرور.

وفي مجال التنبؤ بتدفق الحشود، أجرى الباحثون تجارب على ثلاث مجموعات بيانات من العالم الحقيقي، بما في ذلك مدينة نيويورك، وواشنطن العاصمة، وبالتيمور. تحتوي كل مجموعة بيانات على تدفقات المشاة الحضرية كل ساعة في جميع المناطق.

3 مجموعات بيانات واقعية للتنبؤ بتدفق الحشود

وفي مجال التنبؤ بسرعة حركة المرور، أجرى الباحثون تجارب على 4 مجموعات بيانات من العالم الحقيقي، بما في ذلك MetaLA، وPEMS-BAy، وDidi Chengdu، وDidi Shenzhen.

4 مجموعات بيانات واقعية للتنبؤ بسرعة حركة المرور

في مهمتي الاختبار المذكورتين أعلاه، قام الباحثون بتصنيف مجموعات البيانات إلى مدن المصدر والمدن المستهدفة. على سبيل المثال، إذا تم تعيين مدينة معينة كمجموعة بيانات مستهدفة، بافتراض إمكانية الوصول إلى كمية محدودة فقط من البيانات، مثل 3 أيام من البيانات (عادةً ما تتطلب النماذج الحالية عدة أشهر من البيانات لتدريب النموذج)، يتم تدريب نموذج الانتشار باستخدام البيانات الغنية التي توفرها المدينة المصدر.

تعزيز مزدوج: التدريب المسبق + الضبط الدقيق الفوري

كما هو موضح في الشكل أدناه، يتم تقسيم GPD، باعتباره إطار عمل للتوليد المشروط، إلى ثلاث مراحل رئيسية:

نظرة عامة على النموذج

(أ) مرحلة إعداد الشبكة العصبية

قام الباحثون بتدريب نموذج تنبؤ مكاني زمني منفصل لكل منطقة حضرية مصدرية وحفظوا معلمات الشبكة المحسنة الخاصة بها. يتم تحسين معلمات النموذج لكل منطقة بشكل مستقل وتحويلها إلى تنسيق قائم على المتجهات دون مشاركة المعلمات لضمان قدرة النموذج على التكيف بشكل أفضل مع خصائص المنطقة المعنية.

(ب) التدريب المسبق لنموذج الانتشار

يستخدم الإطار معلمات النموذج المدربة مسبقًا والتي تم جمعها كبيانات تدريب لتدريب نموذج الانتشار لتعلم عملية إنشاء معلمات النموذج. يقوم نموذج الانتشار بتوليد المعلمات عن طريق إزالة الضوضاء التدريجية، والتي يمكنها توليد معلمات الشبكة العصبية من الضوضاء مع إعطاء تلميح. تتشابه هذه العملية مع عملية تحسين المعلمات بدءًا من التهيئة العشوائية، وبالتالي يمكنها التكيف بشكل أفضل مع توزيع البيانات للمدينة المستهدفة.

(ج) توليد معلمات الشبكة العصبية

بعد التدريب المسبق، يمكن إنشاء المعلمات باستخدام إشارات المنطقة للمدينة المستهدفة. ويعمل هذا النهج على تعزيز نقل المعرفة ومطابقة المعلمات بدقة باستخدام التلميحات، والاستفادة الكاملة من أوجه التشابه بين المناطق بين المدن.

ومن بينها، يظهر هيكل شبكة إزالة الضوضاء في الشكل التالي:

بنية الشبكة لشبكة إزالة الضوضاء

كما هو موضح في الشكل أعلاه (أ)، فإن بنية شبكة إزالة الضوضاء في هذه الدراسة تعتمد على نموذج انتشار المحول القائم على المطالبة. بعد تقسيم الطبقة، يتم إعادة تنظيم المعلمات في تسلسل مُسمّى.

أثناء عملية إزالة الضوضاء، يأخذ نموذج انتشار المحول أيضًا في الاعتبار خطوة الوقت k والإشارة الإقليمية p بالإضافة إلى تسلسل الضوضاء. قام الباحثون باستكشاف طرق تعديل متعددة، مثل التعديل اللاحق للتكيف، وتعديل القاعدة التكيفية، وأجروا تعديلات طفيفة ولكنها مهمة على تصميم طبقة المحول. وتظهر استراتيجيات التعديل في الشكلين (ب) و(ج) أعلاه.

ومن الجدير بالذكر أنفي إطار التدريب المسبق والضبط الدقيق للإشارات، يكون اختيار الإشارات مرنًا للغاية طالما أنها قادرة على التقاط خصائص منطقة معينة.على سبيل المثال، يمكن الاستفادة من العديد من الميزات الثابتة، مثل عدد السكان، والمنطقة الإقليمية، والوظائف، وتوزيع نقاط الاهتمام (POIs).

يستغل هذا العمل الإشارات الإقليمية من المنظورين المكاني والزماني:

* تأتي الإشارات المكانية من تمثيلات العقد في الرسم البياني للمعرفة في المدينة، باستخدام العلاقات فقط مثل التجاور الإقليمي والتشابه الوظيفي، والتي من السهل الحصول عليها في جميع المدن؛

* تأتي الإشارات الزمنية من مشفر نموذج التعلم الذاتي.

يحقق GPD أداءً جيدًا في السيناريوهات التي تفتقر إلى البيانات، مع تحسن في الأداء بمقدار 7.87%

من أجل تقييم فعالية الإطار المقترح، أجرت الدراسة تجارب على نوعين من مهام التنبؤ المكاني الزمني الكلاسيكية: التنبؤ بتدفق الحشود والتنبؤ بسرعة حركة المرور. وأظهرت الدراسة أنيحقق GPD أداءً جيدًا في السيناريوهات التي تعاني من ندرة البيانات، حيث يتحسن في المتوسط بمقدار 7.87% على أفضل خط أساس في أربع مجموعات بيانات.

مقارنة GPD مع خطوط الأساس الحديثة على 4 مجموعات بيانات

في مجموعات البيانات الخاصة بواشنطن العاصمة وبالتيمور ولوس أنجلوس وتشنغدو، حقق GPD انخفاضًا في متوسط الخطأ المطلق (MAE) بمقدار 4.31% و17.1% و2.1% و8.17% على التوالي، مقارنة بأفضل الطرق الأساسية المحددة بخطوط في الجدول أعلاه. وهذا يدل على أنيحقق GPD أداءً جيدًا باستمرار في سيناريوهات البيانات المختلفة ويحقق نقلًا فعالًا للمعرفة على مستوى معلمات الشبكة العصبية.

مقارنة أداء نماذج التنبؤ المكانية الزمنية المختلفة

بالإضافة إلى ذلك، أكدت هذه الدراسة أيضًا مرونة إطار GPD في التكيف مع نماذج التنبؤ المكانية الزمنية المختلفة. بالإضافة إلى طريقة الرسم البياني المكاني الزمني الكلاسيكية STGCN، قدمت هذه الدراسة أيضًا GWN و STID كنماذج تنبؤ مكانية زمنية واستخدمت نموذج الانتشار لتوليد معلمات الشبكة الخاصة بها. وتظهر النتائج التجريبية أنلا تتأثر تفوق الإطار باختيار النموذج، لذا يمكن تكييفه مع العديد من النماذج المتقدمة.

تسريع إنشاء "الصين ثلاثية الأبعاد الواقعية"

وفي السنوات الأخيرة، ومع تسارع بناء البنية التحتية الناشئة، تم التخفيف من مشكلة جمع البيانات المكانية الزمنية إلى حد كبير. بالإضافة إلى ذلك، ومع التطبيق الناجح لأساليب التعلم قليلة العينات مثل الطريقة المذكورة أعلاه، تم تنفيذ منصات البيانات الضخمة الزمانية المكانية الحضرية التي تتكيف مع الظروف المحلية في المزيد والمزيد من المدن.

وأظهر تقرير في صحيفة الشعب اليومية في مايو 2023 أن معدل الضمان الذاتي لصور الاستشعار عن بعد بالأقمار الصناعية المحلية وصل إلى أكثر من 90%؛ تم تحديث قاعدة بيانات المعلومات الجغرافية الأساسية 1:50000 بشكل ديناميكي على أساس سنوي، ووصل معدل تغطية الأرض لبيانات المعلومات الجغرافية الأساسية 1:10000 إلى 65%.

وبحسب التقارير، تم دمج الصين ثلاثية الأبعاد الحقيقية في خطة التخطيط الشاملة لبناء الصين الرقمية وتم إطلاقها بالكامل. تتعاون الدولة والمقاطعات والمدن والمقاطعات معًا لتعزيز البناء ثلاثي الأبعاد في الحياة الواقعية على مستوى التضاريس والمدينة والمكونات، ويمتد نطاق تغطية المنتج من سطح الأرض إلى المحيط وتحت الماء وتحت الأرض. في الوقت الحاضر، تم ربط نتائج بناء Real-life 3D China بمنصة المعلومات الأساسية لمساحة الأرض الوطنية في الوقت الفعلي، ويتم استخدامها في التحقق من البيانات المعلنة للمسح الوطني الثالث للأراضي، واستخراج نقاط التغيير في مسوحات تغيير الأراضي، والتظاهر ومحاكاة برنامج تخطيط مساحة الأرض الوطنية.

بحلول مايو 2023، سيتم الانتهاء من بناء 40 منصة للبيانات الضخمة المكانية الزمنية للمدن الذكية.لقد طورت أكثر من 400 نظام تطبيق صناعي لمراقبة وإدارة الموارد الطبيعية، وإدارة التكرير الحضري، والإشراف على النقل والسوق، وما إلى ذلك، مما يوفر الدعم الغني والشامل والموثوق للبنية التحتية المكانية والزمانية في الوقت الفعلي لإدارة التكرير الحضري، والتنمية الاقتصادية والحياة العامة.

ومن المؤكد أنه في ظل الخلفية العامة لـ "الصين الرقمية"، فإن بناء المدن الذكية بهدف قابلية العيش والتنمية المستدامة سوف يستمر في التعمق، ومن الواضح أن أهمية البيانات المكانية الزمنية والنماذج المكانية الزمنية كأساس لعقل المدينة. ويعتقد أنه مع تحسين قدرات جمع البيانات وتكرار أساليب التعلم ذات العينات القليلة، ستصبح التنبؤات المكانية الزمنية أكثر دقة.

مراجع:
https://www.gov.cn/lianbo/bumen/202305/content_6874554.htm