AgentFormer: 사회시공간 다중 에이전트 예측을 위한 에이전트 인지 트랜스포머

다수의 에이전트에 대한 정확한 미래 경로 예측은 자율 시스템에 필수적이지만, 각 에이전트의 복잡한 상호작용과 미래 행동에 대한 불확실성으로 인해 도전 과제가 된다. 다중 에이전트 경로 예측은 두 가지 핵심 차원을 모델링해야 한다. 첫째, 시간 차원에서는 과거 에이전트 상태가 미래 상태에 미치는 영향을 모델링한다. 둘째, 사회적 차원에서는 각 에이전트의 상태가 다른 에이전트에 미치는 영향을 모델링한다. 기존 대부분의 방법들은 이 두 차원을 별도로 모델링한다. 예를 들어, 각 에이전트에 대해 시간적으로 특징을 독립적으로 요약하는 시간 모델을 먼저 적용한 후, 요약된 특징 간의 상호작용을 사회적 모델로 모델링한다. 그러나 이 접근법은 시간 차원 또는 사회적 차원에서 독립적으로 특징을 인코딩할 경우 정보 손실이 발생할 수 있어 최적의 성능을 달성하지 못한다. 대신, 한 에이전트의 상태가 특정 시점에서 다른 에이전트의 미래 상태에 직접적인 영향을 미치는 방식을 허용하는 방법을 선호한다. 이를 위해 우리는 시간 차원과 사회적 차원을 공동으로 모델링하는 새로운 트랜스포머, AgentFormer을 제안한다. 이 모델은 시간과 에이전트 간의 경로 특징을 평탄화하여 다중 에이전트 경로의 시퀀스 표현을 활용한다. 기존의 어텐션 연산은 시퀀스 내 각 요소의 에이전트 정체성을 무시하기 때문에, AgentFormer은 새로운 에이전트 인식 어텐션 메커니즘을 도입하여, 동일한 에이전트의 요소와 다른 에이전트의 요소를 다르게 주목함으로써 에이전트 정체성을 보존한다. AgentFormer 기반으로, 어떤 에이전트의 과거 시점의 특징이라도 미래 위치 추론 시 참조할 수 있는 확률적 다중 에이전트 경로 예측 모델을 제안한다. 또한 모든 에이전트의 잠재적 의도를 공동으로 모델링함으로써, 한 에이전트의 행동 불확실성이 다른 에이전트에 영향을 미칠 수 있도록 한다. 제안한 방법은 기존의 주요 보행자 및 자율주행 데이터셋에서 기존 최고 성능을 크게 향상시켰다.