HyperAI

كل ما تحتاجه هو 5% من عينات التدريب لتحقيق الأداء الأمثل. أصدر فريق البحث بجامعة تسينغهوا نموذج انتشار إزالة الضوضاء المشروط SPDiff لتحقيق محاكاة التدفق البشري على المدى الطويل

特色图像

محاكاة الحشود هي عملية محاكاة حركة عدد كبير من الأشخاص في موقف معين. تُستخدم هذه التقنية بشكل رئيسي في ألعاب الكمبيوتر، والتخطيط الحضري، والتصميم المعماري، وتنظيم المرور. على سبيل المثال، يساعد محاكاة حركة الأشخاص داخل مبنى في ظل ظروف مختلفة (مثل كثافة الحشود، والتدفق، وما إلى ذلك) صناع القرار على تقييم وتحسين تصميم المبنى لتحسين الاستجابة للطوارئ وكفاءة الإخلاء.

وعلى الرغم من أن هذا المجال شهد قدرًا كبيرًا من التقدم البحثي ويتطور بسرعة، فإن تأثير الحركة والقدرات الحسية ومجموعة من العوامل النفسية تجعل سلوك الفرد معقدًا في مواقف مختلفة. ونظرًا للتعقيد الحسابي العالي لمثل هذه التجمعات السكانية غير المتجانسة، فهناك العديد من التحديات المختلفة التي تحد من واقعية محاكاة الحشود.

نشر باحثون من مركز العلوم الحضرية والبحوث الحاسوبية، قسم الهندسة الإلكترونية، جامعة تسينغهوا، ومختبر شنتشن الرئيسي لتمكين البيانات في كل مكان، وكلية الدراسات العليا الدولية بجامعة تسينغهوا شنتشن، ومختبر بينغتشنغ مؤخرًا ورقة بحثية بعنوان "نموذج الانتشار المستنير بالفيزياء الاجتماعية لمحاكاة الحشود" في AAAI 2024.تم اقتراح نموذج جديد لانتشار إزالة الضوضاء المشروط SPDiff، والذي يمكنه استغلال ديناميكيات التفاعل بشكل فعال لمحاكاة سلوك الحشود من خلال عملية انتشار موجهة بواسطة القوى الاجتماعية.

مستوحى من خصائص الحركة للأنظمة الديناميكية متعددة الجسيمات، يدمج النموذج أيضًا التحيزات الاستقرائية القوية المتغيرة لتعزيز قدرة النموذج على التعميم للتحولات، وبالتالي تحقيق أداء أفضل. بالإضافة إلى ذلك، قام النموذج بتطوير خوارزمية تدريب طويلة المدى مناسبة لنماذج الانتشار لضمان الاتساق المادي طويل المدى لنتائج النموذج. تدمج هذه الطريقة المعرفة الفيزيائية الاجتماعية، مثل نموذج القوة الاجتماعية الذي يصف طبيعة التنقل البشري، في تصميم نموذج التعلم العميق، مما يحقق نموذج بحثي مدفوع بالمعرفة والتعاون في البيانات.

رابط الورقة:

https://arxiv.org/abs/2402.06680

رابط الكود:

https://github.com/tsinghua-fib-lab/SPDiff

تابع الحساب الرسمي ورد على "حركة تدفق الناس" لتحميل الورقة كاملة

التباين والتعدد في أنماط حركة الحشود

محاكاة حركة المشاة هي عملية محاكاة دقيقة لحركة عدد كبير من الأشخاص في سيناريو محدد، مع التركيز بشكل أساسي على تأثير التفاعل الجماعي على حركة الحشود. تتمتع هذه التكنولوجيا بتطبيقات رئيسية في مجالات مثل التخطيط الحضري وتصميم المباني وإدارة المرور. على سبيل المثال، تساعد المحاكاة الواقعية لحركة الأشخاص في محطات نقل النقل العام، مثل المطارات ومحطات القطارات، في تحليل كفاءة وسلامة محطات النقل عند مواجهة تدفقات كبيرة من الركاب، كما تعمل على تعزيز تحسين تصميم مساحات البناء.

صيغة نموذج القوة الاجتماعية
القوة الدافعة النهائية fالوجهة، نفور المشاةمشاة، القوة الطاردة f للبيئة والعقباتالبيئة

تتميز حركة الحشود بخاصيتين أساسيتين، وهما التنوع والتعدد الوسائطي.

أولاً، إن السلوكيات الفردية في الحشود غير متجانسة، وتتأثر بالتفضيلات الفردية والبيئة المحيطة، وسوف ينتج البشر مسارات مكانية زمنية معقدة.على سبيل المثال، في مركز التسوق، يتحرك المشاة بسرعات مختلفة ويتبعون مسارات مختلفة اعتمادًا على اهتماماتهم الشخصية وتخطيط المركز التجاري. ويؤدي هذا إلى قيام الأشخاص بإنتاج أنماط حركة متنوعة ومعقدة تتغير بمرور الوقت، مما يؤدي إلى مسارات واقعية.

حاولت طرق البحث المبكرة تفسير الآليات وراء حركة المشاة باستخدام نماذج تعتمد على قواعد فيزيائية في مجال الفيزياء الاجتماعية، ثم استخراج الخصائص الأساسية لحركة المشاة من الخصائص غير المتجانسة، مثل نماذج القوة الاجتماعية. تواجه هذه الطرق مشكلة تتمثل في أن المسارات المحاكاة ليست واقعية وطبيعية بدرجة كافية.

ثانياً، يؤدي عدم اليقين المتأصل في السلوك البشري إلى عدم اليقين في مسارات المشاة، وهو ما يشار إليه غالباً باسم تعدد الوسائط في التنقل البشري.تضمنت الدراسات المبكرة افتراضات مبسطة حول التوزيع العشوائي للمسارات، مثل استخدام التوزيع الغاوسي لنمذجة تعدد الوسائط، واستخدمت الأساليب اللاحقة نماذج توليدية مثل الشبكات التنافسية التوليدية (GANs) ومشفرات التباين التلقائي (VAEs) لتوليد عينات متعددة الوسائط.

في السنوات الأخيرة، أظهر نموذج الانتشار، باعتباره نموذجًا توليديًا شائعًا، أداءً متطورًا في العديد من المهام التوليدية. ومن أجل تحقيق محاكاة واقعية، نظرت هذه الدراسة بشكل شامل في الجانبين اللذين ناقشناهما أعلاه والتي تتطلب الاهتمام، على أمل الاستفادة من الأداء الممتاز لنموذج الانتشار في نمذجة توزيعات متعددة الوسائط معقدة، واستخدام المعرفة الفيزيائية الاجتماعية التي يمثلها نموذج القوة الاجتماعية لتوجيه تصميم إطار نموذج الانتشار لهذه الدراسة.

نموذج الانتشار + خوارزمية تدريب الاستنتاج متعدد الإطارات: تحقيق محاكاة الحركة طويلة المدى

على عكس نموذج الانتشار الذي يعيد بناء توزيع بيانات المراقبة تدريجيًا، يحول نموذج القوة الاجتماعية حركة الحشد إلى نظام ديناميكي متعدد الجسيمات ويفرض قيودًا مادية مباشرة على بيانات المراقبة لكل مشاة في كل إطار زمني.لذلك، فإن دمج هذه المعرفة في العمليات على البيانات الضوضائية أثناء عملية إزالة الضوضاء أمر صعب.


وفي الوقت نفسه، تتضمن محاكاة حركة المشاة مهام توليد البيانات للعديد من المشاة وفي أطر زمنية متعددة. تستخدم الطرق الحالية عادةً نماذج الانتشار لتوليد التسلسل بأكمله مرة واحدة. ومع ذلك، في مشكلة هذا العمل، فإن توليد مسار المحاكاة بالكامل في وقت واحد لا يمكنه توجيه كل مشاة بشكل فعال مع نموذج القوة الاجتماعية في كل إطار زمني.

علاوة على ذلك، نظرًا للطبيعة عالية الأبعاد للبيانات المولدة، فإن عملية التوليد لمرة واحدة قد تعاني من مشكلات الكفاءة والفعالية. لذلك،بالنسبة لأطر نموذج الانتشار الحالية، فإن تحقيق عمليات محاكاة طويلة الأمد مع الحفاظ على استقرار نتائج المحاكاة يمثل مشكلة صعبة.

ولمعالجة التحديات المذكورة أعلاه، تقترح هذه الدراسة نموذج انتشار إزالة الضوضاء المشروط لمحاكاة حركة المشاة. يتمتع النموذج بالميزات التالية:

* يتضمن وحدة تفاعل الحشود للحصول على رؤى من نماذج القوة الاجتماعية لتوجيه عملية إزالة الضوضاء؛

* دمج الخصائص المتغيرة المشتقة من الأنظمة الديناميكية متعددة الجسيمات، مما يعزز تعميم النموذج عبر التحولات ويحسن كفاءة البيانات.

الإطار العام للطريقة

كما هو موضح في الشكل،يستخدم SPDiff شبكة بيانية لنمذجة المشهد.في الرسم البياني، يقوم كل مشاة بإنشاء علاقات تفاعل مع المشاة والعقبات القريبة في مجال الرؤية من خلال الحواف الموجهة. يستخدم نموذج الانتشار المقترح معلومات العقدة والحافة في الرسم البياني والحالة التاريخية ومعلومات وجهة المشاة كمدخلات مشروطة، ويستخدم نموذج الانتشار لعينة توزيع تسارع المشاة المستقبلي في الإطار الزمني التالي، وبالتالي تحديث حالة جميع المشاة في اللحظة التالية. ومن خلال تكرار هذه العملية، يمكن تحقيق محاكاة سلوكية ذات طول تعسفي.

في تصميم شبكة إزالة الضوضاء لنموذج الانتشار، من أجل دمج المعرفة الفيزيائية للحركة البشرية في نموذج الانتشار، قمنا ببناء نموذج الشبكة العصبية على أساس نموذج القوة الاجتماعية الأصلي واستبدال مصطلحاته الأساسية و. يمكن حساب قوة الجر عند نقطة النهاية مباشرة بالصيغة،وعلى هذا الأساس، يتم استخدام خوارزمية الشبكة البيانية (GN) لتحقيق العملية من حالة المشاة إلى التنبؤ بالقوة الاجتماعية.

بالإضافة إلى ذلك، فإن تفاعلات المشاة متكافئة التغير، أي أن التفاعلات سوف تخضع لنفس التحول أو تظل دون تغيير مع تحول النظام الشبيه بالجسيمات المكون من المشاة (مثل الترجمة والدوران). من أجل دمج هذه الخصائص المادية،تتم معالجة معلومات التفاعل من خلال سلسلة من طبقات التلافيف البيانية المتغيرة المتساوية (EGCL) لتحسين كفاءة التدريب والتناسق المادي للنموذج.

أخيرًا، تتم معالجة حالة الحركة التاريخية لكل مشاة بواسطة شبكة عصبية طويلة وقصيرة المدى (LSTM). يعود سبب تقديم وحدة معالجة التاريخ إلى الإدراك المسبق بأن البشر يميلون إلى تجنب التغييرات المفرطة في حالات الحركة لتوفير الطاقة.

تصميم شبكة عصبية لإزالة الضوضاء ذات معلمات لنموذج الانتشار

من أجل تحقيق محاكاة حركة طويلة المدى متسقة جسديًا، يقوم هذا العمل بتصميم خوارزمية تدريب استنتاجية متعددة الإطارات.كما هو موضح في الشكل أدناه، يحاكي نموذج الانتشار المسارات ضمن نافذة زمنية محددة أثناء التدريب ويحسب الخطأ التراكمي كدالة خسارة لتحديث معلمات النموذج عن طريق الانحدار التدرجي. تعمل عملية التعلم هذه على معاقبة سلوك النموذج قصير النظر المتمثل في تجاهل الاتساق المادي في عمليات المحاكاة طويلة المدى، وبالتالي السماح للنموذج بالتعميم على عمليات المحاكاة طويلة المدى.

مخطط تخطيطي لخوارزمية تدريب الاستنتاج متعدد الإطارات المقترحة

النتائج التجريبية: هناك حاجة فقط إلى بيانات تدريب 5% لتحقيق الأداء الأمثل

من أجل تقييم فعالية هذا النموذج،تقدم هذه الدراسة مجموعتين من البيانات الواقعية: بيانات GC ومجموعة بيانات UCY.تختلف مجموعتا البيانات في المشاهد والمقاييس والمدد وكثافة المشاة، ويمكن استخدامهما للتحقق من صحة أداء التعميم للنموذج.

صنفت الدراسة الأساليب الأساسية إلى ثلاث فئات:

* الأساليب القائمة على الفيزياء (نموذج القوة الاجتماعية SFM، الأتمتة الخلوية CA)

* طرق تعتمد على البيانات فقط (STGCNN، PECNet، MID) 

* طرق تكامل المعرفة الفيزيائية (PCS، NSP)

وتؤكد التجارب المقارنة أن الطريقة المقترحة تتمتع بتحسينات كبيرة في الأداء مقارنة بالطرق الأساسية الأكثر تقدمًا.وبناءً على المؤشرات الجزئية (MAE، DTW) ومؤشرات صحة المحاكاة الكلية (OT، MMD)، فإن التحسن يتراوح من 6% إلى 37%.

مقارنة أداء مجموعة بيانات UCY للتجربة الرئيسية
الجزء المكتوب بالخط العريض هو أفضل أداء، والجزء المسطر هو ثاني أفضل أداء

لاستكشاف أداء دقة المحاكاة بشكل أكبر في كل إطار زمني، تدرس هذه التجربة كيفية تغير المؤشرات مع الإطار الزمني للمحاكاة. يمكننا أن نرى أن المؤشر سوف يظهر تغيرًا متذبذبًا بين الارتفاع والانخفاض بالتناوب بمرور الوقت، أي أنه سوف تحدث ظاهرة متعددة القمم. يمكن أن يعزى الارتفاع إلى الأخطاء المتراكمة أثناء المحاكاة طويلة المدى، ويمكن أن يعزى الانخفاض إلى حقيقة أن النماذج الثلاثة "تسحب" المشاة إلى نقطة النهاية.

بشكل عام، يمكن للطريقة المقترحة الحفاظ على خطأ أقل على مدى فترة طويلة من الزمن مقارنة بالخطين الأساسيين الآخرين، مما يعكس دقة المحاكاة لهذه الطريقة.

تطور المؤشر على الإطار الزمني المحاكى

استخدام مجموعات البيانات UCY وGC، واستخدام OT وMMD كمؤشرات

استكشفت هذه الدراسة بشكل أكبر مساهمة كل تصميم رئيسي في الطريقة في تحسين الأداء، وتحققت من أداء النموذج بدون دمج المعرفة الاجتماعية والفيزيائية، وبدون وحدة معالجة التاريخ، وبدون خوارزمية تدريب استنتاج متعدد الإبر.

تظهر النتائج التجريبية في الشكل أدناه أنإن إزالة أي مكون واحد يؤدي إلى درجة معينة من التدهور في أداء النموذج، مما يثبت فعالية كل مجموعة من التصاميم.تجدر الإشارة إلى أن خسارة أداء النموذج تكون الأكبر عندما يتم إزالة التصميم المتعلق بالتوجيه الفيزيائي الاجتماعي، مما يعكس ضرورة دمج معرفة الفيزياء الاجتماعية في محاكاة الحشود.

تجارب الاستئصال لوحدات مختلفة من النموذج. NC يعني عدم التقارب

وأخيرًا، تدرس هذه الورقة تأثير التحيز الاستقرائي الذي أدخله التصميم المتغير المتساوي في وحدة التفاعل الجماهيري على الأداء. عندما يتم تدهور طبقة التفاف الرسم البياني المتغير المتساوي إلى شبكة غير متغيرة المتغير، يتم استكشاف تغييرات أداء النموذج تحت كميات مختلفة من بيانات التدريب ودورات التدريب. كما يمكن أن نرى، كما هو موضح في الشكل،تتفوق النماذج التي تستخدم الشبكات العصبية البيانية المتغيرة باستمرار على تلك التي تستخدم النماذج غير المتغيرة في جميع نسب عينات التدريب تقريبًا. حتى مع استخدام 5% فقط من بيانات التدريب، لا يزال النموذج الأصلي يحافظ على الأداء الممتاز.

على وجه التحديد، عندما تكون نسبة عينة التدريب 5%، فإن مؤشر MAE لـ SPDiff لا ينخفض بالكاد مقارنة بنسبة عينة التدريب 100%، ويكون الحد الأقصى للانخفاض 2.5% فقط. بالمقارنة مع التصميم غير المتغير، يعمل التصميم المتغير على تحسين مؤشر MAE بما يصل إلى 13.2% ومؤشر OT بما يصل إلى 22%. يوضح هذا أنه بفضل مساعدة التصميم المتغير المتساوي، يمكن للنموذج المقترح في هذه الورقة الحصول على قدرات تعميم تعادل تلك التي تم الحصول عليها بعد التدريب بكمية كبيرة من البيانات مع عدد صغير فقط من العينات.

التغيرات في MAE تحت نسب عينة التدريب المختلفة

خاتمة

تقترح هذه الورقة طريقة جديدة لمحاكاة حركة المشاة استنادًا إلى نموذج انتشار الضوضاء المشروط. من خلال عملية الانتشار المشروط الموجهة جسديًا، يمكن للنموذج الاستفادة بشكل فعال من معلومات الحالة المعروفة لحركة الحشود لمحاكاة حركة المشاة.

مستوحاة من نموذج القوة الاجتماعية المعروف، فإن تصميم التفاعل الجماعي المتغير المقترح وخوارزمية تدريب الاستنتاج متعدد الإطارات يعالجان على التوالي تحديات صحة المحاكاة على المستويين الكلي والجزئي واستقرار المحاكاة طويلة المدى. تقدم هذه الطريقة النمذجة التوليدية في البحث حول التنقل البشري وتستكشف الجمع بين المعرفة الفيزيائية الاجتماعية والنماذج العميقة التوليدية.

دعوة إلى العمل

HyperAI هو أحد أقدم المجتمعات المفتوحة التي تركز على الذكاء الاصطناعي للعلوم. وتواصل مشاركة وتعزيز أحدث نتائج الأبحاث من خلال تفسير الأوراق البحثية المتطورة في الداخل والخارج.

نرحب بمجموعات البحث والفرق التي تجري أبحاثًا واستكشافات حول الذكاء الاصطناعي للعلوم بالاتصال بنا لمشاركة أحدث نتائج أبحاثهم، وتقديم مقالات تفسيرية متعمقة، وما إلى ذلك. هناك المزيد من الطرق للترويج للذكاء الاصطناعي من أجل العلوم في انتظارنا لاستكشافها معًا!

إضافة WeChat: HyperaiXingXing (معرف WeChat: Hyperai01)