6ヶ月前

概要

近年の学習ベースのアプローチは、ワンショットカメラローカライゼーション分野において顕著な成果を上げている。しかし、複数のモダリティ（例：画像と深度）をどのように融合するか、また入力が劣化または欠落している状況をどう扱うかについては、まだ十分に研究されていない。特に、従来の深層融合アプローチは、単一モダリティを用いるモデルと比べて顕著な性能向上を示していない点に注目している。本研究では、この原因が、各モダリティの特徴量空間における単純な加算や連結による融合戦略に起因していると考える。このような手法は、各モダリティの相違する強みを適切に考慮していないためである。これを解決するため、変分型Product-of-Experts（PoE）を用いて異なるセンサ入力を共通の潜在空間に統合し、その後にアテンションベースの融合を施す、エンドツーエンド型のフレームワーク「VMLoc」を提案する。従来のマルチモーダル変分モデルが単純な変分自己符号化器の目的関数を直接採用するのに対し、本研究では、重要度重み付けに基づく不偏な目的関数を用いることで、カメラローカライゼーションを高精度に推定可能であることを示す。提案モデルはRGB-Dデータセットを用いて広範に評価され、その有効性が実証された。ソースコードは以下のURLで公開されている：https://github.com/kaichen-z/VMLoc。

ソースPDF