2ヶ月前
LaRa: 多カメラ鳥瞰図セマンティックセグメンテーションのための潜在変数とビーム
Bartoccioni, Florent ; Zablocki, Éloi ; Bursuc, Andrei ; Pérez, Patrick ; Cord, Matthieu ; Alahari, Karteek

要約
最近の自動運転に関する研究では、世界の中間表現として鳥瞰図(BEV)セマンティックマップが広く採用されています。これらのBEVマップのオンライン予測には、複数カメラからのデータ抽出や共通の俯瞰グリッドへの融合と投影など、非自明な操作が含まれます。通常、これらの操作は誤差を伴いやすい幾何学的な手法(例:ホモグラフィーや単眼深度推定からの逆投影)や画像ピクセルとBEV内のピクセルとの間での直接的な密集マッピング(例:MLPやアテンションを使用)によって行われます。本研究では、「LaRa」という効率的なエンコーダー-デコーダーモデルを提案します。このモデルは変換器ベースで、複数カメラからの車両セマンティックセグメンテーションに使用されます。当方のアプローチはクロスアテンションシステムを使用して、複数センサーから得られる情報をコンパクトかつ豊富な潜在表現の集合体に集約します。これらの潜在表現は、一連の自己アテンションブロックを経て処理された後、BEV空間において2つ目のクロスアテンションによって再投影されます。nuScenesデータセットを用いた実験結果から、当方のモデルが変換器を使用した従来の最良の研究よりも優れていることを示しています。コードおよび学習済みモデルは、https://github.com/valeoai/LaRa で公開されています。