HyperAIHyperAI

Command Palette

Search for a command to run...

VMLoc:学習ベースの多モーダルカメラローカライゼーションのための変分統合

Kaichen Zhou Changhao Chen Bing Wang Muhamad Risqi U. Saputra Niki Trigoni Andrew Markham

概要

近年の学習ベースのアプローチは、ワンショットカメラローカライゼーション分野において顕著な成果を上げている。しかし、複数のモダリティ(例:画像と深度)をどのように融合するか、また入力が劣化または欠落している状況をどう扱うかについては、まだ十分に研究されていない。特に、従来の深層融合アプローチは、単一モダリティを用いるモデルと比べて顕著な性能向上を示していない点に注目している。本研究では、この原因が、各モダリティの特徴量空間における単純な加算や連結による融合戦略に起因していると考える。このような手法は、各モダリティの相違する強みを適切に考慮していないためである。これを解決するため、変分型Product-of-Experts(PoE)を用いて異なるセンサ入力を共通の潜在空間に統合し、その後にアテンションベースの融合を施す、エンドツーエンド型のフレームワーク「VMLoc」を提案する。従来のマルチモーダル変分モデルが単純な変分自己符号化器の目的関数を直接採用するのに対し、本研究では、重要度重み付けに基づく不偏な目的関数を用いることで、カメラローカライゼーションを高精度に推定可能であることを示す。提案モデルはRGB-Dデータセットを用いて広範に評価され、その有効性が実証された。ソースコードは以下のURLで公開されている:https://github.com/kaichen-z/VMLoc


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています