3Dオブジェクトポイントクラウドの補完的理解のための幾何学分離表現の学習

2次元画像処理において、画像を高周波成分と低周波成分に分解し、それぞれエッジ部と滑らかな領域を記述する試みがなされている。同様に、3次元オブジェクト(たとえば椅子の境界部や座面領域など)の輪郭部と平坦部は、異なるが補完的な幾何構造を表している。しかし、従来の深層ネットワークでは、点群をすべて同様に扱うか、局所的なパッチを同等に扱うことで、このような幾何的構造の差異が無視されてしまう。この問題を解決するために、本研究では幾何学的分離型アテンションネットワーク(Geometry-Disentangled Attention Network, GDANet)を提案する。GDANetは、幾何学的分離モジュール(Geometry-Disentangle Module)を導入し、点群を3次元オブジェクトの輪郭部と平坦部に動的に分離する。これらはそれぞれ、急激な変化成分(sharp variation component)と緩やかな変化成分(gentle variation component)として表現される。さらに、GDANetは「急激・緩やか補完的アテンションモジュール(Sharp-Gentle Complementary Attention Module)」を用いて、急激変化成分と緩やか変化成分からの特徴を2つの包括的表現として捉え、それらを元の点群特徴と融合する際にそれぞれ異なるアテンションを適用する。このようにして、本手法は、2つの異なる分離された成分から包括的かつ補完的な3次元幾何学的意味を捉え、局所情報の不足を補完する。3次元オブジェクト分類およびセグメンテーションのベンチマークにおける広範な実験結果から、GDANetはパラメータ数を少なく抑えながらも、最先端の性能を達成することが示された。コードは https://github.com/mutianxu/GDANet にて公開されている。