MKConv:ポイントクラウド解析のための多次元特徴表現

ディープラーニングの顕著な成功にもかかわらず、点群の不規則なデータ構造のため、最適な畳み込み演算は依然として実現されていない。従来の手法は、連続空間内の任意の点を処理できる有効な連続カーネル関数の設計に主眼を置いてきた。高精度を示す様々なアプローチが提案されてきたが、本研究では、標準的なポイントワイズ特徴が1次元チャネルで表現されている点に注目し、追加の空間特徴次元を含む表現にすることで、より豊かな情報表現が可能になることを観察した。本論文では、ポイント特徴表現をベクトルから多次元行列へと変換する能力を学習する新しい畳み込み演算子「多次元カーネル畳み込み(Multidimensional Kernel Convolution, MKConv)」を提案する。従来のポイント畳み込みとは異なり、MKConvは2段階の処理を実行する。(i) まず、多次元カーネル重みを活用して、局所的特徴表現の空間次元を活性化する。このように拡張された空間的特徴は、特徴空間における空間相関とチャネル相関を通じて、埋め込まれた情報をより豊かに表現でき、局所構造に関する詳細な情報を保持することができる。(ii) その後、多次元特徴(グリッド構造を持つ行列と見なせる)に対して離散畳み込みを適用する。これにより、情報損失を引き起こす voxelization(ボクセル化)を回避しつつ、点群データに対して離散畳み込みを有効に利用できる。さらに、局所点集合内の構造的情報を包括的に捉えるため、空間的特徴次元を再重み付けする「多次元局所注意モジュール(Multidimensional Local Attention, MLA)」を提案する。実験により、MKConvが物体分類、物体部品セグメンテーション、シーンセマンティックセグメンテーションといった点群処理タスクにおいて、優れた汎用性と優れた性能を示すことを実証した。