HyperAI

Seuls 51 Échantillons De Formation TP3T Sont Nécessaires Pour Obtenir Des Performances Optimales. L'équipe De Recherche De L'université Tsinghua a Publié Le Modèle De Diffusion De Débruitage Conditionnel SPDiff Pour Réaliser Une Simulation D'écoulement Humain À Longue Portée

特色图像

La simulation de foule est le processus de simulation du mouvement d’un grand nombre de personnes dans une situation spécifique. Cette technologie est principalement utilisée dans les jeux informatiques, l’urbanisme, la conception architecturale et l’organisation du trafic. Par exemple, la simulation du mouvement des personnes à l’intérieur d’un bâtiment dans différentes conditions (telles que la densité de la foule, le flux, etc.) aide les décideurs à évaluer et à optimiser la conception du bâtiment afin d’améliorer l’efficacité des interventions d’urgence et de l’évacuation.

Bien que le domaine ait connu de nombreux progrès de recherche et se développe rapidement, l’influence du mouvement, des capacités sensorielles et d’une série de facteurs psychologiques rend le comportement individuel complexe dans différentes situations. En raison de la grande complexité informatique de ces populations hétérogènes, de nombreux défis différents limitent le réalisme des simulations de foule.

Des chercheurs du Centre de recherche en sciences urbaines et informatiques, du Département d'ingénierie électronique de l'Université Tsinghua, du Laboratoire clé de Shenzhen pour l'autonomisation des données omniprésentes, de l'École supérieure internationale de l'Université Tsinghua à Shenzhen et du Laboratoire Pengcheng ont récemment publié un article intitulé « Modèle de diffusion informé par la physique sociale pour la simulation de foule » à l'AAAI 2024.Un nouveau modèle de diffusion de débruitage conditionnel SPDiff est proposé, qui peut exploiter efficacement la dynamique d'interaction pour simuler le comportement de la foule à travers un processus de diffusion guidé par les forces sociales.

Inspiré par les caractéristiques de mouvement des systèmes dynamiques multi-particules, le modèle intègre également un fort biais inductif d'équivariance pour améliorer la capacité de généralisation du modèle aux transformations, obtenant ainsi de meilleures performances. En outre, le modèle a développé un algorithme d’entraînement à longue portée adapté aux modèles de diffusion pour garantir la cohérence physique à longue portée des résultats du modèle. Cette méthode intègre les connaissances en physique sociale, telles que le modèle de force sociale qui décrit la nature de la mobilité humaine, dans la conception du modèle d’apprentissage profond, réalisant ainsi un paradigme de recherche axé sur la collaboration entre les connaissances et les données.

Lien vers l'article :

https://arxiv.org/abs/2402.06680

Lien du code :

https://github.com/tsinghua-fib-lab/SPDiff

Suivez le compte officiel et répondez « Mouvement de flux de personnes » pour télécharger l'article complet

Hétérogénéité et multimodalité des mouvements de foule

La simulation de la mobilité piétonne est le processus de simulation microscopique du mouvement d'un grand nombre de personnes dans un scénario spécifique, en se concentrant principalement sur l'impact de l'interaction de groupe sur le mouvement de la foule. Cette technologie a des applications majeures dans des domaines tels que l’urbanisme, la conception de bâtiments et la gestion du trafic. Par exemple, la simulation réaliste du mouvement des personnes dans les stations de transfert des transports publics, telles que les aéroports et les gares, permet d'analyser l'efficacité et la sécurité des stations de transfert face à des flux importants de passagers et favorise davantage l'optimisation de la conception de l'espace des bâtiments.

Formule du modèle de force sociale
Force motrice terminale fdestination, répulsion des piétons fpédiatre, la force répulsive f de l'environnement et des obstaclesenv

Les mouvements de foule présentent deux caractéristiques fondamentales, à savoir l’hétérogénéité et la multimodalité.

Premièrement, les comportements individuels dans une foule sont hétérogènes et, influencés par les préférences individuelles et l’environnement qui les entoure, les humains produiront des trajectoires spatio-temporelles complexes.Par exemple, dans un centre commercial, les piétons se déplacent à des vitesses différentes et suivent des chemins différents en fonction de leurs intérêts personnels et de la configuration du centre commercial. Cela conduit les gens à produire des schémas de mouvement divers et complexes qui changent au fil du temps, ce qui donne lieu à des trajectoires réalistes.

Les premières méthodes de recherche ont tenté d’expliquer les mécanismes à l’origine du mouvement des piétons à l’aide de modèles basés sur des règles physiques dans le domaine de la physique sociale, puis d’extraire les caractéristiques essentielles du mouvement des piétons à partir de caractéristiques hétérogènes, telles que les modèles de force sociale. Ces méthodes présentent le problème que les trajectoires simulées ne sont pas suffisamment réalistes et naturelles.

Deuxièmement, l’incertitude inhérente au comportement humain conduit à une incertitude dans les trajectoires des piétons, ce que l’on appelle souvent la multimodalité de la mobilité humaine.Les premières études ont fait des hypothèses simplificatrices sur la distribution aléatoire des trajectoires, comme l’utilisation de la distribution gaussienne pour modéliser la multimodalité, et les méthodes ultérieures ont utilisé des modèles génératifs tels que les réseaux antagonistes génératifs (GAN) et les autoencodeurs variationnels (VAE) pour générer des échantillons multimodaux.

Ces dernières années, le modèle de diffusion, en tant que modèle génératif populaire, a démontré des performances de pointe dans de nombreuses tâches génératives. Afin de parvenir à une simulation réaliste, cette étude a examiné de manière exhaustive les deux aspects discutés ci-dessus qui nécessitent une attention particulière, dans l'espoir d'utiliser les excellentes performances du modèle de diffusion dans la modélisation de distributions multimodales complexes et d'utiliser les connaissances en physique sociale représentées par le modèle de force sociale pour guider la conception du cadre du modèle de diffusion de cette étude.

Modèle de diffusion + algorithme d'entraînement par déduction multi-images : réaliser une simulation de mouvement à longue portée

Contrairement au modèle de diffusion qui reconstruit progressivement la distribution des données d'observation, le modèle de force sociale transforme le mouvement de la foule en un système dynamique multi-particulaire et impose directement des contraintes physiques sur les données d'observation de chaque piéton dans chaque période de temps.Par conséquent, il est difficile d’intégrer ces connaissances dans les opérations sur les données bruyantes pendant le processus de débruitage.


Parallèlement, la simulation de la mobilité des piétons implique des tâches de génération de données de plusieurs piétons et de plusieurs périodes. Les méthodes existantes utilisent généralement des modèles de diffusion pour générer la séquence entière en une seule fois. Cependant, dans le problème de ce travail, générer la trajectoire de simulation entière en une seule fois ne peut pas guider efficacement chaque piéton en combinaison avec le modèle de force sociale à chaque intervalle de temps.

De plus, en raison de la nature hautement dimensionnelle des données générées, la génération en une seule fois peut souffrir de problèmes d’efficacité et d’efficience. donc,Pour les cadres de modèles de diffusion existants, réaliser des simulations à long terme tout en maintenant la stabilité des résultats de simulation est un problème difficile.

Pour relever les défis ci-dessus, cette étude propose un modèle de diffusion de débruitage conditionnel pour la simulation de la mobilité des piétons. Le modèle présente les caractéristiques suivantes :

* Comprend un module d'interaction avec la foule pour obtenir des informations à partir de modèles de force sociale afin de guider le processus de débruitage ;

* Intègre les propriétés équivariantes dérivées de systèmes dynamiques multi-particules, améliorant la généralisation du modèle à travers les transformations et optimisant l'efficacité des données.

Cadre général de la méthode

Comme le montre la figure,SPDiff utilise un réseau graphique pour modéliser la scène.Dans le graphique, chaque piéton établit des relations d'interaction avec les piétons et les obstacles à proximité dans le champ de vision via des bords dirigés. Le modèle de diffusion proposé utilise les informations sur les nœuds et les bords du graphique, l'état historique et les informations sur la destination des piétons comme entrées conditionnelles, et utilise le modèle de diffusion pour échantillonner la distribution de l'accélération future des piétons dans la prochaine période, mettant ainsi à jour l'état de tous les piétons au moment suivant. En répétant ce processus, des simulations comportementales de longueur arbitraire peuvent être réalisées.

Dans la conception du réseau de débruitage du modèle de diffusion, afin d'intégrer la connaissance physique du mouvement humain dans le modèle de diffusion, nous avons construit le modèle de réseau neuronal sur la base du modèle de force sociale d'origine et remplacé ses termes de base et. La force de traction au point final peut être calculée directement par la formule,Sur cette base, l'algorithme Graph Network (GN) est utilisé pour réaliser le processus allant du statut de piéton à la prédiction de la force sociale.

De plus, les interactions des piétons sont équivariantes, c'est-à-dire que les interactions subiront la même transformation ou resteront inchangées lorsque le système particulaire composé de piétons est transformé (comme la translation et la rotation). Afin d’intégrer de telles caractéristiques physiques,Les informations d'interaction sont traitées via une série de couches convolutives de graphes équivariants (EGCL) pour améliorer l'efficacité de la formation et la cohérence physique du modèle.

Enfin, l'état de mouvement historique de chaque piéton est traité par un réseau neuronal à long terme (LSTM). L’introduction du module de traitement de l’historique est attribuée à la connaissance antérieure selon laquelle les humains ont tendance à éviter les changements excessifs dans les états de mouvement pour économiser de l’énergie.

Conception d'un réseau neuronal de débruitage paramétré pour un modèle de diffusion

Afin d'obtenir une simulation de mouvement à longue portée physiquement cohérente, ce travail conçoit en outre un algorithme d'entraînement par déduction multi-images.Comme le montre la figure ci-dessous, le modèle de diffusion simule des trajectoires dans une fenêtre temporelle définie pendant la formation et calcule l'erreur cumulée comme fonction de perte pour mettre à jour les paramètres du modèle par descente de gradient. Ce processus d’apprentissage pénalise le comportement à courte vue du modèle consistant à ignorer la cohérence physique dans les simulations à longue portée, permettant ainsi au modèle de se généraliser aux simulations à longue portée.

Schéma de principe de l'algorithme d'entraînement par déduction multi-images proposé

Résultats expérimentaux : seules les données d'entraînement 5% sont nécessaires pour obtenir des performances optimales

Afin d’évaluer l’efficacité de ce modèle,Cette étude présente deux ensembles de données du monde réel : les données GC et l’ensemble de données UCY.Les deux ensembles de données diffèrent en termes de scènes, d’échelles, de durées et de densités de piétons, et peuvent être utilisés pour valider les performances de généralisation du modèle.

L'étude a classé les méthodes de base en trois catégories :

* Méthodes basées sur la physique (Social Force Model SFM, Cellular Automata CA)

* Méthodes purement basées sur les données (STGCNN, PECNet, MID) 

* Méthodes d'intégration des connaissances physiques (PCS, NSP)

Des expériences comparatives vérifient que la méthode proposée présente des améliorations de performances significatives par rapport aux méthodes de base les plus avancées.À en juger par les indicateurs micro (MAE, DTW) et les indicateurs d’authenticité de simulation macro (OT, MMD), l’amélioration varie de 6% à 37%.

Comparaison des performances de l'ensemble de données UCY de l'expérience principale
La partie en gras représente la meilleure performance et la partie soulignée la deuxième meilleure performance

Pour explorer davantage les performances de précision de la simulation dans chaque période, cette expérience examine comment les indicateurs changent avec la période de simulation. On peut voir que l'indicateur montrera un changement oscillant de hausse et de baisse alternées au fil du temps, c'est-à-dire qu'un phénomène multi-pics se produira. L'augmentation peut être attribuée aux erreurs accumulées lors de la simulation à longue portée, et la diminution peut être attribuée au fait que les trois modèles « tirent » le piéton jusqu'au point final.

Dans l’ensemble, la méthode proposée peut maintenir une erreur plus faible pendant une longue période par rapport aux deux autres lignes de base, ce qui reflète la précision de simulation de cette méthode.

Évolution de l'indicateur sur une période simulée

En utilisant les ensembles de données UCY et GC, en utilisant OT et MMD comme indicateurs

Cette étude a exploré plus en détail la contribution de chaque conception clé de la méthode à l’amélioration des performances et a vérifié les performances du modèle sans fusion des connaissances sociales et physiques, sans module de traitement de l’historique et sans algorithme de formation par déduction multi-aiguilles.

Les résultats expérimentaux de la figure ci-dessous montrent queLa suppression d’un composant entraîne un certain degré de dégradation des performances du modèle, ce qui prouve l’efficacité de chaque groupe de conceptions.Il est à noter que la perte de performance du modèle est la plus importante lorsque la conception liée aux conseils en physique sociale est supprimée, ce qui reflète la nécessité d'intégrer les connaissances en physique sociale dans la simulation de foule.

Expériences d'ablation de différents modules du modèle. NC signifie non-convergence

Enfin, cet article étudie l’impact du biais inductif introduit par la conception équivariante dans le module d’interaction avec la foule sur la performance. Lorsque la couche convolutionnelle du graphique équivariant est dégradée en un réseau non équivariant, les changements de performances du modèle sous différentes quantités de données d'entraînement et cycles d'entraînement sont explorés. Comme on peut le voir, comme le montre la figure,Les modèles utilisant des réseaux neuronaux à graphes équivariants surpassent systématiquement ceux utilisant des modèles non équivariants à presque tous les ratios d'échantillons d'entraînement. Même en utilisant seulement 5% des données de formation, le modèle d'origine conserve toujours d'excellentes performances.

Plus précisément, lorsque le rapport d'échantillon d'entraînement est de 5%, l'indice MAE de SPDiff diminue à peine par rapport au rapport d'échantillon d'entraînement de 100%, et la diminution maximale n'est que de 2,5%. Par rapport à la conception non équivariante, la conception équivariante améliore l'indice MAE jusqu'à 13,2% et l'indice OT jusqu'à 22%. Cela montre que grâce à l'aide de la conception équivariante, le modèle proposé dans cet article peut obtenir des capacités de généralisation équivalentes à celles obtenues après une formation avec une grande quantité de données avec seulement un petit nombre d'échantillons.

Évolution de l'EMA sous différents ratios d'échantillons d'entraînement

Conclusion

Cet article propose une nouvelle méthode de simulation du mouvement des piétons basée sur un modèle de diffusion de débruitage conditionnel. Grâce à un processus de diffusion conditionnelle guidé physiquement, le modèle peut utiliser efficacement les informations d’état connues du mouvement de la foule pour simuler le mouvement des piétons.

Inspiré du modèle de force sociale bien connu, la conception d'interaction de foule équivariante proposée et l'algorithme de formation par déduction multi-images répondent respectivement aux défis de l'authenticité de la simulation aux niveaux macro et micro et de la stabilité de la simulation à longue portée. Cette méthode introduit la modélisation générative dans la recherche sur la mobilité humaine et explore la combinaison des connaissances en physique sociale et des modèles profonds génératifs.

Appel à l'action

HyperAI est l’une des premières communautés ouvertes axées sur l’IA pour la science. Il continue de partager et de promouvoir les derniers résultats de recherche en interprétant des articles de pointe au pays et à l’étranger.

Les groupes et équipes de recherche qui mènent des recherches et des explorations autour de l'IA pour la science sont invités à nous contacter pour partager leurs derniers résultats de recherche, soumettre des articles d'interprétation approfondis, etc. D'autres moyens de promouvoir l'IA4S attendent que nous les explorions ensemble !

Ajouter WeChat : HyperaiXingXing (ID WeChat : Hyperai01)