
要約
クロスビュー変換器を提案します。これは、複数のカメラからマップビューのセマンティックセグメンテーションを行うための効率的なアテンションベースモデルです。当社のアーキテクチャは、カメラ認識型クロスビュー注意メカニズムを使用して、個々のカメラビューから標準的なマップビュー表現へのマッピングを暗黙的に学習します。各カメラは、その内部パラメータと外部パラメータに依存する位置埋め込みを使用します。これらの位置埋め込みにより、変換器は幾何学的に明示的にモデリングすることなく、異なるビュー間でのマッピングを学習することができます。アーキテクチャは、各ビュー用の畳み込み画像エンコーダと、マップビューのセマンティックセグメンテーションを推論するためのクロスビュートランスフォーマーレイヤーで構成されています。当社のモデルは単純であり、容易に並列化でき、リアルタイムで動作します。提案されたアーキテクチャはnuScenesデータセットにおいて最先端の性能を達成しており、推論速度は4倍速くなっています。コードは以下のURLから入手可能です: https://github.com/bradyz/cross_view_transformers.