3ヶ月前

UniTR:鳥瞰図表現を目的とした統合的かつ効率的なマルチモーダルTransformer

Haiyang Wang, Hao Tang, Shaoshuai Shi, Aoxue Li, Zhenguo Li, Bernt Schiele, Liwei Wang
UniTR:鳥瞰図表現を目的とした統合的かつ効率的なマルチモーダルTransformer
要約

複数のセンサーからの情報を統合的に処理することは、信頼性の高い自律走行システムにおける正確かつ堅牢な環境認識を実現する上で不可欠である。しかし、現在の3D認識研究は、モダリティ別に特化したアプローチを採用しているため、追加の計算負荷が生じ、異なるセンサーデータ間の協調性が低くなるという課題がある。本論文では、屋外環境における3D認識を効率的に行うためのマルチモーダルバックボーン「UniTR」を提案する。UniTRは、統一的なモデリングと共有パラメータを用いて、多様なモダリティを処理する。従来の手法とは異なり、UniTRはモダリティに依存しないTransformerエンコーダを導入し、視点の差異を持つセンサーデータを並列に処理することで、モダリティごとの表現学習と自動的なクロスモーダル相互作用を実現しつつ、追加の融合ステップを不要とする。さらに、補完的なセンサーモダリティを最大限に活用するため、2D視点における意味情報豊富な特徴と、3Dスパース近傍関係を幾何学的に意識した構造を組み合わせた、新たなマルチモーダル統合戦略を提示する。UniTRは根本的にタスクに依存しないバックボーンであり、さまざまな3D認識タスクを自然にサポートできる。本手法はnuScenesベンチマークにおいて新たな最先端性能を達成し、3D物体検出ではNDSが+1.1向上、BEVマップセグメンテーションではmIoUが+12.0向上しつつ、推論遅延を低減した。コードは https://github.com/Haiyang-W/UniTR にて公開される予定である。