AgentFormer:社会時空間マルチエージェント予測のためのエージェント認識型Transformer

複数エージェントの正確な将来軌道を予測することは、自律システムにとって不可欠であるが、エージェント間の複雑な相互作用および各エージェントの将来行動における不確実性のため、非常に困難である。複数エージェントの軌道予測には、以下の2つの主要な次元をモデル化する必要がある:(1)時間次元—過去のエージェント状態が将来の状態に与える影響をモデル化すること;(2)社会次元—各エージェントの状態が他のエージェントにどのように影響するかをモデル化すること。従来の多くは、これらの2つの次元を別々に扱う方法を採用している。たとえば、まず時間モデルを用いて各エージェントについて時間にわたる特徴を独立に要約し、その後、要約された特徴間の相互作用を社会モデルでモデル化する。しかし、このアプローチは非最適であり、時間的または社会的次元において独立して特徴を符号化することで、情報の損失が生じる可能性がある。むしろ、ある時刻におけるエージェントの状態が、別のエージェントの将来の状態に直接影響を与えるような方法を望む。この目的のために、本研究では時間次元と社会次元を統合的にモデル化できる新しいTransformer、AgentFormerを提案する。本モデルは、時間およびエージェント間で軌道特徴をフラット化したシーケンス表現を用いる。標準的なアテンション操作では、シーケンス内の各要素のエージェント識別子を無視するため、AgentFormerはエージェント固有のアテンション機構を導入する。この機構は、同じエージェントの要素と他のエージェントの要素に対して異なる方法でアテンションを計算することで、エージェントの識別子を保持する。AgentFormerに基づき、任意の過去時刻における任意のエージェントの特徴に注目できる確率的複数エージェント軌道予測モデルを提案する。また、すべてのエージェントの潜在的意図を統合的にモデル化することで、あるエージェントの行動の確率的変動が他のエージェントに影響を与えることを可能にする。本手法は、広く用いられている歩行者および自律走行車両のデータセットにおいて、従来の最先端技術を大幅に上回る性能を達成した。