9日前
IMFNet:点群登録における解釈可能なマルチモーダル融合
Xiaoshui Huang, Wentao Qu, Yifan Zuo, Yuming Fang, Xiaowei Zhao

要約
従来の最先端のポイント記述子は構造情報にのみ依存しており、テクスチャ情報は無視されている。しかし、人間がシーンの一部を区別する際には、テクスチャ情報が極めて重要である。さらに、現在の学習ベースのポイント記述子はすべてブラックボックスであり、元のポイントが最終的な記述子にどのように寄与しているのかが明確でない。本論文では、構造情報とテクスチャ情報を両方考慮して点群登録記述子を生成する新しいマルチモーダル融合手法を提案する。具体的には、記述子抽出に向けた重み付きテクスチャ情報を抽出するための新しいアテンション統合モジュールを設計した。また、元のポイントが最終的な記述子にどのように寄与しているかを説明可能なモジュールを提案した。記述子要素を損失関数として用い、ターゲット層へ逆伝播を行い、勾配をそのポイントが最終的な記述子に対してどれほど重要であるかの指標として捉える。本研究は、登録タスクにおける説明可能な深層学習の分野で一歩前進した。3DMatch、3DLoMatch、KITTIにおける包括的な実験により、マルチモーダル融合記述子が最先端の精度を達成し、記述子の特徴抽出能が向上することを示した。また、本研究で提案する説明可能モジュールが、登録記述子の抽出過程を解釈可能にすることも実証した。