Um Eine Optimale Leistung Zu Erzielen, Werden Nur 5%-Trainingsbeispiele Benötigt. Das Forschungsteam Der Tsinghua-Universität Veröffentlichte Das Bedingte Rauschunterdrückungsdiffusionsmodell SPDiff, Um Eine Simulation Des Menschlichen Flusses Über Große Entfernungen Zu Erreichen

Bei der Crowd Simulation handelt es sich um den Prozess der Simulation der Bewegung einer großen Anzahl von Menschen in einer bestimmten Situation. Diese Technologie wird hauptsächlich in Computerspielen, der Stadtplanung, der Architektur und der Verkehrsorganisation eingesetzt. Beispielsweise hilft die Simulation der Bewegung von Menschen in einem Gebäude unter verschiedenen Bedingungen (wie Menschendichte, Strömung usw.) Entscheidungsträgern dabei, die Gebäudekonstruktion zu bewerten und zu optimieren, um die Notfallreaktion und Evakuierungseffizienz zu verbessern.
Obwohl in diesem Bereich große Forschungsfortschritte erzielt wurden und er sich rasch weiterentwickelt, machen der Einfluss von Bewegung, sensorischen Fähigkeiten und einer Reihe psychologischer Faktoren das individuelle Verhalten in unterschiedlichen Situationen komplex. Aufgrund der hohen Rechenkomplexität solch heterogener Populationen gibt es viele verschiedene Herausforderungen, die den Realismus von Massensimulationen einschränken.
Forscher vom Center for Urban Science and Computational Research, Department of Electronic Engineering, Tsinghua University, Shenzhen Key Laboratory of Ubiquitous Data Empowerment, Tsinghua University Shenzhen International Graduate School und Pengcheng Laboratory haben kürzlich auf der AAAI 2024 ein Papier mit dem Titel „Social Physics Informed Diffusion Model for Crowd Simulation“ veröffentlicht.Es wird ein neuartiges bedingtes Denoising-Diffusionsmodell SPDiff vorgeschlagen, das die Interaktionsdynamik effektiv ausnutzen kann, um das Verhalten einer Menschenmenge durch einen von sozialen Kräften gesteuerten Diffusionsprozess zu simulieren.
Inspiriert von den Bewegungseigenschaften dynamischer Mehrteilchensysteme integriert das Modell außerdem eine starke induktive Äquivarianzverzerrung, um die Generalisierungsfähigkeit des Modells auf Transformationen zu verbessern und dadurch eine bessere Leistung zu erzielen. Darüber hinaus wurde für das Modell ein für Diffusionsmodelle geeigneter Langstrecken-Trainingsalgorithmus weiterentwickelt, um die physikalische Langstreckenkonsistenz der Modellergebnisse sicherzustellen. Diese Methode integriert sozialphysikalisches Wissen, wie etwa das soziale Kräftemodell, das die Natur der menschlichen Mobilität beschreibt, in das Design des Deep-Learning-Modells und verwirklicht so ein Forschungsparadigma, das auf der Zusammenarbeit von Wissen und Daten basiert.

Link zum Artikel:
https://arxiv.org/abs/2402.06680
Code-Link:
https://github.com/tsinghua-fib-lab/SPDiff
Folgen Sie dem offiziellen Konto und antworten Sie mit „People flow movement“, um das vollständige Dokument herunterzuladen
Heterogenität und Multimodalität der Massenbewegung
Bei der Fußgängermobilitätssimulation handelt es sich um einen Prozess, bei dem die Bewegung einer großen Anzahl von Menschen in einem bestimmten Szenario mikroskopisch simuliert wird. Der Schwerpunkt liegt dabei auf den Auswirkungen der Gruppeninteraktion auf die Bewegung der Menschenmenge. Diese Technologie findet in Bereichen wie Stadtplanung, Gebäudedesign und Verkehrsmanagement große Anwendung. Beispielsweise hilft die realistische Simulation der Personenbewegungen an Umsteigestationen des öffentlichen Nahverkehrs, wie Flughäfen und Bahnhöfen, dabei, die Effizienz und Sicherheit von Umsteigestationen bei großen Passagierströmen zu analysieren und fördert darüber hinaus die Optimierung der Gebäuderaumgestaltung.

Terminalantriebskraft fZiel, Fußgängerabstoßung fped, die abstoßende Kraft f der Umgebung und HindernisseUmgebung
Die Bewegung von Menschenmengen weist zwei Hauptmerkmale auf, nämlich Heterogenität und Multimodalität.
Erstens ist das individuelle Verhalten in einer Menschenmenge heterogen und wird von individuellen Vorlieben und der umgebenden Umwelt beeinflusst. Daher entwickeln Menschen komplexe räumlich-zeitliche Verläufe.In einem Einkaufszentrum bewegen sich Fußgänger beispielsweise je nach ihren persönlichen Interessen und der Gestaltung des Einkaufszentrums mit unterschiedlicher Geschwindigkeit und folgen unterschiedlichen Wegen. Dies führt dazu, dass Menschen vielfältige und komplexe Bewegungsmuster entwickeln, die sich im Laufe der Zeit verändern und zu realistischen Bewegungsabläufen führen.
Frühe Forschungsmethoden versuchten, die Mechanismen der Fußgängerbewegung mithilfe von Modellen zu erklären, die auf physikalischen Regeln aus dem Bereich der Sozialphysik basierten, und dann die wesentlichen Merkmale der Fußgängerbewegung aus den heterogenen Merkmalen zu extrahieren, wie etwa sozialen Kraftmodellen. Bei diesen Verfahren besteht das Problem, dass die simulierten Trajektorien nicht realistisch und natürlich genug sind.
Zweitens führt die inhärente Unsicherheit des menschlichen Verhaltens zu einer Unsicherheit der Fußgängerwege, was oft als Multimodalität der menschlichen Mobilität bezeichnet wird.In frühen Studien wurden vereinfachende Annahmen zur zufälligen Verteilung von Trajektorien getroffen, beispielsweise durch die Verwendung der Gauß-Verteilung zur Modellierung der Multimodalität. Spätere Methoden verwendeten generative Modelle wie Generative Adversarial Networks (GANs) und Variational Autoencoder (VAEs), um multimodale Stichproben zu erzeugen.
In den letzten Jahren hat das Diffusionsmodell als beliebtes generatives Modell bei vielen generativen Aufgaben eine hochmoderne Leistung bewiesen. Um eine realistische Simulation zu erreichen, wurden in dieser Studie die beiden oben diskutierten Aspekte, die Aufmerksamkeit erfordern, umfassend berücksichtigt. Dabei hoffte man, die hervorragende Leistung des Diffusionsmodells bei der Modellierung komplexer multimodaler Verteilungen zu nutzen und das Wissen über die Sozialphysik, das durch das Sozialkraftmodell repräsentiert wird, als Leitfaden für die Gestaltung des Diffusionsmodellrahmens dieser Studie zu verwenden.
Diffusionsmodell + Multi-Frame-Deduktions-Trainingsalgorithmus: Realisieren Sie eine Bewegungssimulation über große Entfernungen
Anders als das Diffusionsmodell, das die Verteilung der Beobachtungsdaten schrittweise rekonstruiert, wandelt das soziale Kraftmodell die Bewegung der Menge in ein dynamisches System mit mehreren Teilchen um und legt den Beobachtungsdaten jedes Fußgängers in jedem Zeitrahmen direkt physikalische Beschränkungen auf.Daher ist es schwierig, dieses Wissen in Operationen mit verrauschten Daten während des Rauschunterdrückungsprozesses einzubeziehen.
Gleichzeitig umfasst die Simulation der Fußgängermobilität die Aufgabe der Datengenerierung für mehrere Fußgänger und mehrere Zeitrahmen. Vorhandene Methoden verwenden normalerweise Diffusionsmodelle, um die gesamte Sequenz auf einmal zu generieren. Bei dem Problem dieser Arbeit reicht es jedoch nicht aus, die gesamte Simulationsbahn auf einmal zu generieren und in Kombination mit dem sozialen Kraftmodell jeden Fußgänger in jedem Zeitrahmen effektiv zu leiten.
Darüber hinaus kann es aufgrund der hochdimensionalen Natur der generierten Daten bei der einmaligen Generierung zu Effizienz- und Effektivitätsproblemen kommen. daher,Für bestehende Diffusionsmodellrahmen ist die Durchführung von Langzeitsimulationen bei gleichzeitiger Wahrung der Stabilität der Simulationsergebnisse eine Herausforderung.
Um die oben genannten Herausforderungen zu bewältigen, schlägt diese Studie ein bedingtes Rauschunterdrückungsdiffusionsmodell für die Simulation der Fußgängermobilität vor. Das Modell verfügt über folgende Funktionen:
* Enthält ein Modul zur Interaktion mit der Masse, um Erkenntnisse aus sozialen Kraftmodellen zu gewinnen und so den Rauschunterdrückungsprozess zu steuern;
* Integriert äquivariante Eigenschaften, die aus dynamischen Mehrteilchensystemen abgeleitet wurden, verbessert die Generalisierung des Modells über Transformationen hinweg und optimiert die Dateneffizienz.

Wie in der Abbildung gezeigt,SPDiff verwendet ein Graphennetzwerk, um die Szene zu modellieren.Im Graphen stellt jeder Fußgänger über gerichtete Kanten Interaktionsbeziehungen mit Fußgängern in der Nähe und Hindernissen im Sichtfeld her. Das vorgeschlagene Diffusionsmodell verwendet die Knoten- und Kanteninformationen des Graphen, den historischen Zustand und die Zielinformationen der Fußgänger als bedingte Eingaben und verwendet das Diffusionsmodell, um die Verteilung der zukünftigen Beschleunigung der Fußgänger im nächsten Zeitrahmen abzutasten und so den Zustand aller Fußgänger im nächsten Moment zu aktualisieren. Durch Iteration dieses Prozesses können Verhaltenssimulationen beliebiger Länge erreicht werden.
Um das physikalische Wissen über menschliche Bewegungen in das Diffusionsmodell zu integrieren, haben wir beim Entwurf des Rauschunterdrückungsnetzwerks das neuronale Netzwerkmodell auf der Grundlage des ursprünglichen Modells sozialer Kräfte erstellt und dessen Kernbegriffe ersetzt. Die Zugkraft am Endpunkt kann direkt mit der Formel berechnet werden:Auf dieser Grundlage wird der Graph Network (GN)-Algorithmus verwendet, um den Prozess vom Fußgängerstatus bis zur Vorhersage sozialer Kräfte zu realisieren.
Darüber hinaus sind die Interaktionen zwischen Fußgängern äquivariant, d. h., die Interaktionen unterliegen der gleichen Transformation oder bleiben unverändert, wenn das aus Fußgängern bestehende partikelartige System transformiert wird (z. B. durch Translation und Rotation). Um solche physikalischen Eigenschaften zu berücksichtigen,Die Interaktionsinformationen werden durch eine Reihe äquivarianter Graph-Convolutional-Layer (EGCL) verarbeitet, um die Trainingseffizienz und physikalische Konsistenz des Modells zu verbessern.
Schließlich wird der historische Bewegungszustand jedes Fußgängers von einem Long Short-Term Neural Network (LSTM) verarbeitet. Die Einführung des Moduls zur Verlaufsverarbeitung ist auf die Erkenntnis zurückzuführen, dass Menschen dazu neigen, übermäßige Änderungen des Bewegungszustands zu vermeiden, um Energie zu sparen.

Um eine physikalisch konsistente Simulation von Bewegungen über große Entfernungen zu erreichen, wird in dieser Arbeit außerdem ein Trainingsalgorithmus für die Multi-Frame-Deduktion entwickelt.Wie in der folgenden Abbildung dargestellt, simuliert das Diffusionsmodell während des Trainings Trajektorien innerhalb eines definierten Zeitfensters und berechnet den kumulativen Fehler als Verlustfunktion, um die Modellparameter durch Gradientenabstieg zu aktualisieren. Dieser Lernprozess bestraft das kurzsichtige Verhalten des Modells, die physikalische Konsistenz in Langstreckensimulationen zu ignorieren, und ermöglicht so die Verallgemeinerung des Modells auf Langstreckensimulationen.

Experimentelle Ergebnisse: Nur 5% Trainingsdaten werden benötigt, um optimale Leistung zu erzielen
Um die Wirksamkeit dieses Modells zu bewerten,Diese Studie stellt zwei reale Datensätze vor: GC-Daten und UCY-Datensatz.Die beiden Datensätze unterscheiden sich in Szenen, Maßstäben, Dauer und Fußgängerdichte und können zur Validierung der Generalisierungsleistung des Modells verwendet werden.
Die Studie unterteilte die Basismethoden in drei Kategorien:
* Physikbasierte Methoden (Social Force Model SFM, Cellular Automata CA)
* Rein datengetriebene Methoden (STGCNN, PECNet, MID)
* Methoden der physikalischen Wissensintegration (PCS, NSP)
Vergleichsexperimente bestätigen, dass die vorgeschlagene Methode im Vergleich zu den fortschrittlichsten Basismethoden erhebliche Leistungsverbesserungen aufweist.Gemessen an den Mikroindikatoren (MAE, DTW) und den Authentizitätsindikatoren der Makrosimulation (OT, MMD) liegt die Verbesserung zwischen 6% und 37%.

Der fettgedruckte Teil stellt die beste Leistung dar, und der unterstrichene Teil stellt die zweitbeste Leistung dar.
Um die Simulationsgenauigkeit in jedem Zeitrahmen weiter zu untersuchen, untersucht dieses Experiment, wie sich die Indikatoren mit dem Simulationszeitraum ändern. Es ist ersichtlich, dass der Indikator im Laufe der Zeit eine oszillierende Veränderung mit abwechselndem Anstieg und Abfall zeigt, d. h., es tritt ein Mehrspitzenphänomen auf. Der Anstieg ist auf die akkumulierten Fehler bei der Langstreckensimulation zurückzuführen, der Rückgang darauf, dass alle drei Modelle den Fußgänger bis zum Endpunkt „ziehen“.
Insgesamt kann die vorgeschlagene Methode im Vergleich zu den beiden anderen Basislinien über einen langen Zeitraum einen geringeren Fehler aufrechterhalten, was die Simulationsgenauigkeit dieser Methode widerspiegelt.

Verwendung der Datensätze UCY und GC, unter Verwendung von OT und MMD als Indikatoren
In dieser Studie wurde der Beitrag jedes Schlüsseldesigns in der Methode zur Leistungsverbesserung weiter untersucht und die Leistung des Modells ohne sozial-physikalische Wissensfusion, ohne ein Verlaufsverarbeitungsmodul und ohne einen Trainingsalgorithmus für die Mehrnadeldeduktion überprüft.
Die experimentellen Ergebnisse in der Abbildung unten zeigen, dassDas Entfernen einer beliebigen Komponente führt zu einer gewissen Verschlechterung der Modellleistung, was die Wirksamkeit jeder Designgruppe beweist.Es wird darauf hingewiesen, dass der Leistungsverlust des Modells am größten ist, wenn das Design im Zusammenhang mit der Anleitung zur Sozialphysik entfernt wird. Dies spiegelt die Notwendigkeit wider, Kenntnisse der Sozialphysik in die Simulation von Menschenmengen einzubeziehen.

Abschließend untersucht dieses Papier die Auswirkungen der induktiven Verzerrung, die durch das äquivariante Design im Crowd-Interaktionsmodul eingeführt wird, auf die Leistung. Wenn die äquivariante Graph-Faltungsschicht zu einem nicht-äquivarianten Netzwerk degradiert wird, werden die Leistungsänderungen des Modells bei unterschiedlichen Trainingsdatenmengen und Trainingszyklen untersucht. Wie in der Abbildung gezeigt,Modelle, die äquivariante Graph-Neuralnetze verwenden, schneiden bei fast allen Trainingsstichprobenverhältnissen durchweg besser ab als Modelle, die nicht-äquivariante Modelle verwenden. Selbst wenn nur 5% der Trainingsdaten verwendet werden, weist das ursprüngliche Modell immer noch eine hervorragende Leistung auf.
Insbesondere wenn das Trainingsstichprobenverhältnis 5% beträgt, nimmt der MAE-Index von SPDiff im Vergleich zum Trainingsstichprobenverhältnis von 100% kaum ab, und die maximale Abnahme beträgt nur 2,5%. Im Vergleich zum nicht-äquivarianten Design verbessert das äquivariante Design den MAE-Index um bis zu 13,2% und den OT-Index um bis zu 22%. Dies zeigt, dass das in diesem Artikel vorgeschlagene Modell dank des äquivarianten Designs Generalisierungsfähigkeiten erreichen kann, die denen nach dem Training mit einer großen Datenmenge mit nur einer kleinen Anzahl von Stichproben entsprechen.

Abschluss
In diesem Artikel wird eine neue Methode zur Simulation von Fußgängerbewegungen vorgeschlagen, die auf einem bedingten Rauschunterdrückungsdiffusionsmodell basiert. Durch einen physikalisch gesteuerten bedingten Diffusionsprozess kann das Modell die bekannten Zustandsinformationen zur Bewegung einer Menschenmenge effektiv nutzen, um die Bewegung von Fußgängern zu simulieren.
Inspiriert vom bekannten Modell sozialer Kräfte befassen sich das vorgeschlagene äquivariante Crowd-Interaktionsdesign und der Multi-Frame-Deduktionstrainingsalgorithmus jeweils mit den Herausforderungen der Simulationsauthentizität auf Makro- und Mikroebene sowie der Stabilität der Langzeitsimulation. Diese Methode führt generative Modellierung in die Forschung zur menschlichen Mobilität ein und untersucht die Kombination von Wissen aus der Sozialphysik und generativen Tiefenmodellen.
Aufruf zum Handeln
HyperAI ist eine der ersten offenen Communities mit Schwerpunkt auf KI für die Wissenschaft. Durch die Interpretation hochaktueller Arbeiten im In- und Ausland werden weiterhin die neuesten Forschungsergebnisse geteilt und gefördert.
Forschungsgruppen und Teams, die Forschung und Erkundung im Bereich KI für die Wissenschaft betreiben, können sich gerne an uns wenden, um ihre neuesten Forschungsergebnisse mitzuteilen, ausführliche Interpretationsartikel einzureichen usw. Weitere Möglichkeiten zur Förderung von AI4S warten darauf, von uns gemeinsam erkundet zu werden!
WeChat hinzufügen: HyperaiXingXing (WeChat-ID: Hyperai01)