2ヶ月前
MinkLoc++: ライダーと単眼画像の融合による場所認識
Komorowski, Jacek ; Wysoczanska, Monika ; Trzcinski, Tomasz

要約
私たちはLiDARから得られるポイントクラウドとRGBカメラから得られる画像のセンサ読み値ペアに基づく識別的マルチモーダル記述子を紹介します。この記述子はMinkLoc++と名付けられ、ロボティクスや自動車の場所認識、再局所化、およびループクロージャーの目的に使用できます。私たちは遅延融合アプローチを使用しており、各モーダリティは個別に処理され、処理パイプラインの最終段階で融合されます。提案された方法は標準的な場所認識ベンチマークにおいて最先端の性能を達成しています。また、マルチモーダル記述子を学習する際に支配的なモーダリティ問題が発生することを確認しました。この問題はネットワークが訓練データに対してより大きな過学習(overfit)を示すモーダリティに焦点を当てるときに現れます。これにより訓練中の損失が低下しますが、評価セットでの性能は最適でない結果となります。本研究では深層計量学習アプローチを使用してマルチモーダルニューラルネットワークを学習する際のこのようなリスクを検出および軽減する方法について説明します。私たちのコードはプロジェクトウェブサイトで公開されています: https://github.com/jac99/MinkLocMultimodal。注:「過学習」(overfit)という用語は一般的な日本語表現ですが、「overfit」も括弧内に記載することで情報の一貫性を保っています。