8ヶ月前

概要

本稿では、2次元画像と3次元点群の適応的融合を可能とする類似度認識型融合ネットワーク（SAFNet）を提案する。従来の融合ベースの手法は、複数モダリティからの情報を統合することにより、顕著な性能を達成している。しかし、これらの手法は2次元ピクセルと3次元点群の間の対応関係を投影によって依存しており、情報融合を固定された方法で行うため、実際のシナリオ（データ収集時にペアワイズの特徴が厳密に整備されていない状況）に容易に適用できないという課題がある。これを解決するために、我々は後期融合戦略を採用し、入力点群と2次元ピクセルから逆投影された点群の間の幾何学的および文脈的類似度をまず学習し、その類似度をもとに2つのモダリティの融合をガイドすることで、補完的な情報をより効果的に活用する。具体的には、対応する3次元近傍領域の空間座標分布を直接比較する幾何学的類似度モジュール（GSM）と、対応する中心点の空間的文脈情報を集約・比較する文脈的類似度モジュール（CSM）を用いる。本研究で提案するこれらのモジュールは、画像特徴が予測にどれだけ寄与するかを効果的に評価でき、各点の最終予測に対する2つのモダリティの寄与度をネットワークが適応的に調整可能となる。ScanNetV2ベンチマークにおける実験結果から、SAFNetはさまざまなデータ整合性条件下において、既存の最先端融合手法を著しく上回ることが示された。

ソースPDF