2ヶ月前

LATR: 単眼画像からの3Dレーン検出を用いたトランスフォーマー

Luo, Yueru ; Zheng, Chaoda ; Yan, Xu ; Kun, Tang ; Zheng, Chao ; Cui, Shuguang ; Li, Zhen
LATR: 単眼画像からの3Dレーン検出を用いたトランスフォーマー
要約

単眼画像からの3次元車線検出は、自動運転において基本的かつ挑戦的な課題です。最近の進歩は主に、前面画像の特徴量とカメラパラメータから構築される構造的な3次元代理表現(例:鳥瞰図)に依存しています。しかし、単眼画像における深度の曖昧さは、構築された代理特徴マップと元の画像との間で誤りが生じる原因となり、正確な車線検出にとって大きな課題となっています。この問題を解決するために、我々は新しいLATRモデルを提案します。これは、変換された視点表現を使用せずに3次元認識可能な前面ビュー特徴量を用いたエンドツーエンドの3次元車線検出器です。具体的には、LATRは我々が開発した車線認識クエリジェネレーターと動的な3次元地面位置埋め込みを使用して生成されたクエリとキー・バリュー対に基づいてクロスアテンションを利用して3次元車線を検出します。一方で、各クエリは2次元車線認識特徴量に基づいて生成され、ハイブリッド埋め込みを採用することで車線情報の強化を行います。他方で、3次元空間情報は反復更新される3次元地面平面から位置埋め込みとして注入されます。LATRは合成データセットApolloや実世界データセットOpenLaneおよびONCE-3DLanesにおいて既存の最先端手法を大幅に上回る性能を示しています(例:OpenLaneでのF1スコアで11.4ポイントの向上)。コードは https://github.com/JMoonr/LATR にて公開予定です。

LATR: 単眼画像からの3Dレーン検出を用いたトランスフォーマー | 最新論文 | HyperAI超神経