11日前

画像があなたにさらに多くの情報を提供する:形状解析のためのポイントクラウドクロスモーダル学習

Xu Yan, Heshen Zhan, Chaoda Zheng, Jiantao Gao, Ruimao Zhang, Shuguang Cui, Zhen Li
画像があなたにさらに多くの情報を提供する:形状解析のためのポイントクラウドクロスモーダル学習
要約

近年の点群解析は著しい進展を遂げているが、単一モダリティからの表現学習のアプローチは、徐々に限界に達しつつある。本研究では、点群の表現力をより判別力豊かに高めるため、本質的に豊かな外観情報(テクスチャ、色、陰影など)を含む画像の利点を最大限に活用することに注目し、新たなアプローチを提案する。具体的には、3Dオブジェクトのレンダリングまたは投影により得られる視点画像(view-images)を活用して点群解析を強化する、シンプルかつ効果的な点群クロスモダリティ学習戦略(PointCMT)を導入する。実装上、視点画像から補助的な知識を効果的に獲得するため、教師-生徒フレームワークを構築し、クロスモダリティ学習を知識蒸留(knowledge distillation)の問題として定式化している。PointCMTは、新たな特徴および分類器の強化基準を用いて、異なるモダリティ間の分布差を効果的に解消し、潜在的な負の転移(negative transfer)を回避する。なお、PointCMTはモデル構造の変更を加えずとも、点群のみを対象とした表現学習を顕著に改善できる。多数の実験により、さまざまなデータセット上で、優れたバックボーンを用いた場合に顕著な性能向上が確認された。特に、PointCMTを導入したPointNet++およびPointMLPは、ModelNet40およびScanObjectNNの2つのベンチマークにおいて、それぞれ94.4%および86.7%の精度を達成し、最先端の性能を実現した。コードは、https://github.com/ZhanHeshen/PointCMT にて公開される予定である。

画像があなたにさらに多くの情報を提供する:形状解析のためのポイントクラウドクロスモーダル学習 | 最新論文 | HyperAI超神経