6ヶ月前

概要

近年の点群解析は著しい進展を遂げているが、単一モダリティからの表現学習のアプローチは、徐々に限界に達しつつある。本研究では、点群の表現力をより判別力豊かに高めるため、本質的に豊かな外観情報（テクスチャ、色、陰影など）を含む画像の利点を最大限に活用することに注目し、新たなアプローチを提案する。具体的には、3Dオブジェクトのレンダリングまたは投影により得られる視点画像（view-images）を活用して点群解析を強化する、シンプルかつ効果的な点群クロスモダリティ学習戦略（PointCMT）を導入する。実装上、視点画像から補助的な知識を効果的に獲得するため、教師-生徒フレームワークを構築し、クロスモダリティ学習を知識蒸留（knowledge distillation）の問題として定式化している。PointCMTは、新たな特徴および分類器の強化基準を用いて、異なるモダリティ間の分布差を効果的に解消し、潜在的な負の転移（negative transfer）を回避する。なお、PointCMTはモデル構造の変更を加えずとも、点群のみを対象とした表現学習を顕著に改善できる。多数の実験により、さまざまなデータセット上で、優れたバックボーンを用いた場合に顕著な性能向上が確認された。特に、PointCMTを導入したPointNet++およびPointMLPは、ModelNet40およびScanObjectNNの2つのベンチマークにおいて、それぞれ94.4%および86.7%の精度を達成し、最先端の性能を実現した。コードは、https://github.com/ZhanHeshen/PointCMT にて公開される予定である。

ソースPDF