AgentFormer : Transformers conscients des agents pour la prévision multi-agents socio-temporelle

La prédiction de trajectoires futures précises pour plusieurs agents est essentielle pour les systèmes autonomes, mais demeure un défi en raison des interactions complexes entre agents et de l’incertitude inhérente au comportement futur de chacun. La prévision des trajectoires multi-agents nécessite la modélisation de deux dimensions clés : (1) la dimension temporelle, où l’on modélise l’influence des états passés d’un agent sur ses états futurs ; (2) la dimension sociale, où l’on modélise l’effet de l’état de chaque agent sur les autres. La plupart des méthodes antérieures modélisent ces deux dimensions de manière séparée : par exemple, elles utilisent d’abord un modèle temporel pour résumer les caractéristiques au fil du temps pour chaque agent de manière indépendante, puis modélisent les interactions entre ces caractéristiques résumées à l’aide d’un modèle social. Cette approche est sous-optimale, car le codage indépendant des caractéristiques selon la dimension temporelle ou sociale peut entraîner une perte d’information. À la place, nous préférons une méthode permettant à l’état d’un agent à un instant donné d’affecter directement l’état d’un autre agent à un instant futur. Pour atteindre cet objectif, nous proposons un nouveau modèle Transformer, appelé AgentFormer, qui modélise conjointement les dimensions temporelle et sociale. Ce modèle exploite une représentation séquentielle des trajectoires multi-agents en flattant les caractéristiques des trajectoires à la fois dans le temps et sur les agents. Étant donné que les opérations d’attention standard ignorent l’identité de l’agent associée à chaque élément de la séquence, AgentFormer introduit un mécanisme d’attention novateur, sensible à l’agent, qui préserve les identités des agents en traitant différemment les éléments provenant du même agent par rapport à ceux provenant d’autres agents. Sur la base d’AgentFormer, nous proposons un modèle stochastique de prédiction de trajectoires multi-agents capable d’accéder aux caractéristiques de n’importe quel agent à n’importe quel instant antérieur lors de l’inférence de la position future d’un agent. L’intention latente de tous les agents est également modélisée conjointement, permettant ainsi à la stochasticité du comportement d’un agent d’influencer les autres. Notre méthode améliore de manière significative l’état de l’art sur des jeux de données bien établis, notamment dans les domaines de la marche piétonne et de la conduite autonome.