11日前

HRFuser：2次元オブジェクト検出のためのマルチ解像度センサフュージョンアーキテクチャ

Tim Broedermann, Christos Sakaridis, Dengxin Dai, Luc Van Gool

要約

自律走行車は標準的なカメラに加えて、ライダー（LiDAR）やレーダーなど複数の追加センサを搭載することが一般的であり、これらは走行シーンの内容をより豊かに把握するための情報を得るのに役立つ。近年の研究の多くは、カメラとライダー、あるいはカメラとレーダーといった特定のセンサペアを、検討対象の設定に特化したアーキテクチャ的要素を用いて融合する手法に注目しているが、文脈に依存せず汎用的かつモジュール化可能なセンサ融合アーキテクチャは、これまでの文献には存在しなかった。本研究では、マルチモーダル2次元物体検出を目的としたモジュール型アーキテクチャ「HRFuser」を提案する。HRFuserは、複数のセンサをマルチスケールのアプローチで融合可能であり、入力モダリティの数に応じて任意にスケーラブルである。HRFuserの設計は、画像のみを入力とする高解像度ネットワークの最先端技術に基づき、複数の解像度で複数モダリティの融合を実現するための新規なマルチウィンドウクロスアテンションブロックを導入している。nuScenesおよび悪条件下データセットDENSEを用いた広範な実験により、本モデルが追加モダリティから得られる補完的特徴を効果的に活用でき、カメラ単体の性能を大幅に上回り、2次元物体検出の評価指標において、既存の最先端3次元および2次元融合手法を一貫して上回ることを示した。本研究のソースコードは公開されている。