HyperAIHyperAI

Command Palette

Search for a command to run...

UniTR:鳥瞰図表現を目的とした統合的かつ効率的なマルチモーダルTransformer

Haiyang Wang Hao Tang Shaoshuai Shi Aoxue Li Zhenguo Li Bernt Schiele Liwei Wang

概要

複数のセンサーからの情報を統合的に処理することは、信頼性の高い自律走行システムにおける正確かつ堅牢な環境認識を実現する上で不可欠である。しかし、現在の3D認識研究は、モダリティ別に特化したアプローチを採用しているため、追加の計算負荷が生じ、異なるセンサーデータ間の協調性が低くなるという課題がある。本論文では、屋外環境における3D認識を効率的に行うためのマルチモーダルバックボーン「UniTR」を提案する。UniTRは、統一的なモデリングと共有パラメータを用いて、多様なモダリティを処理する。従来の手法とは異なり、UniTRはモダリティに依存しないTransformerエンコーダを導入し、視点の差異を持つセンサーデータを並列に処理することで、モダリティごとの表現学習と自動的なクロスモーダル相互作用を実現しつつ、追加の融合ステップを不要とする。さらに、補完的なセンサーモダリティを最大限に活用するため、2D視点における意味情報豊富な特徴と、3Dスパース近傍関係を幾何学的に意識した構造を組み合わせた、新たなマルチモーダル統合戦略を提示する。UniTRは根本的にタスクに依存しないバックボーンであり、さまざまな3D認識タスクを自然にサポートできる。本手法はnuScenesベンチマークにおいて新たな最先端性能を達成し、3D物体検出ではNDSが+1.1向上、BEVマップセグメンテーションではmIoUが+12.0向上しつつ、推論遅延を低減した。コードは https://github.com/Haiyang-W/UniTR にて公開される予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
UniTR:鳥瞰図表現を目的とした統合的かつ効率的なマルチモーダルTransformer | 記事 | HyperAI超神経