HyperAIHyperAI

Command Palette

Search for a command to run...

LaRa: 多カメラ鳥瞰図セマンティックセグメンテーションのための潜在変数とビーム

Florent Bartoccioni Éloi Zablocki Andrei Bursuc Patrick Pérez Matthieu Cord Karteek Alahari

概要

最近の自動運転に関する研究では、世界の中間表現として鳥瞰図(BEV)セマンティックマップが広く採用されています。これらのBEVマップのオンライン予測には、複数カメラからのデータ抽出や共通の俯瞰グリッドへの融合と投影など、非自明な操作が含まれます。通常、これらの操作は誤差を伴いやすい幾何学的な手法(例:ホモグラフィーや単眼深度推定からの逆投影)や画像ピクセルとBEV内のピクセルとの間での直接的な密集マッピング(例:MLPやアテンションを使用)によって行われます。本研究では、「LaRa」という効率的なエンコーダー-デコーダーモデルを提案します。このモデルは変換器ベースで、複数カメラからの車両セマンティックセグメンテーションに使用されます。当方のアプローチはクロスアテンションシステムを使用して、複数センサーから得られる情報をコンパクトかつ豊富な潜在表現の集合体に集約します。これらの潜在表現は、一連の自己アテンションブロックを経て処理された後、BEV空間において2つ目のクロスアテンションによって再投影されます。nuScenesデータセットを用いた実験結果から、当方のモデルが変換器を使用した従来の最良の研究よりも優れていることを示しています。コードおよび学習済みモデルは、https://github.com/valeoai/LaRa で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています