17日前
トラジェクトリ予測のためのTransformerネットワーク
Francesco Giuliari, Irtiza Hasan, Marco Cristani, Fabio Galasso

要約
最近の歩行者運動予測における成功は、すべてLSTMモデルに基づいており、特に人々間の社会的相互作用および人々と環境との相互作用をモデル化することで、ほとんどすべての進展が達成されてきた。本研究では、LSTMモデルの使用に疑問を呈し、軌道予測に新たなアプローチとしてTransformerネットワークの活用を提案する。これは、LSTMが逐次的・ステップバイステップで処理を行う方式から、完全にアテンションベースの記憶機構に移行する根本的な変更である。特に、元々のTransformerネットワーク(TF)および自然言語処理タスクにおいて最先端を誇る拡張型双方向Transformer(BERT)の両方を検討した。提案するTransformerモデルは、シーン内の個々の人物の軌道を予測する。これらのモデルは「シンプル」である。なぜなら、人物同士の複雑な相互作用や環境との相互作用を明示的にモデル化せず、各人物を独立して扱うからである。特に、装飾を加えず単純なTFモデルが、最も規模が大きく、最も挑戦的な軌道予測ベンチマークであるTrajNetにおいて最高のスコアを達成した。さらに、複数の妥当な将来軌道を予測する拡張版は、ETH + UCYの5つのデータセットにおいて、より高度に設計された従来手法と同等の性能を発揮した。最後に、Transformerが実際のセンサデータにおける観測値の欠落に対しても適応可能であることを示した。コードは以下のURLから公開されている:https://github.com/FGiuliari/Trajectory-Transformer。