18日前

Point-LGMask:マルチレシオマスキングを用いた点群事前学習における局所的・グローバルなコンテキスト埋め込み

{Min Chen, Yixue Hao, Long Hu, Qiao Yu, Jinfeng Xu, Xianzhi Li, Yuan Tang}
要約

自己教師学習(self-supervised learning)は自然言語処理および2次元視覚分野において大きな成功を収めており、マスキングモデル(masked modeling)はその中で非常に一般的な事前学習手法として広く用いられている。しかし、局所的特徴とグローバル特徴を統合する3次元点群理解へのマスキングの拡張は、新たな課題を提起している。本研究では、マルチレートマスキングを用いて局所的およびグローバルな文脈を統合する新しい手法「Point-LGMask」を提案する。この手法は点群の自己教師学習において非常に有効であるが、既存の事前学習手法ではほとんど注目されていない。具体的には、固定されたマスキングレートに過剰に適合することを回避するため、まずマルチレートマスキングを提案する。これにより、異なる難易度のタスクを通じてエンコーダが代表的な特徴を包括的に探索できるようにする。さらに、局所的およびグローバル特徴の両方を適切に埋め込むよう促すため、複合損失関数を定式化する。この損失関数は以下の2つの要素から構成される:(i) グローバル表現の対比損失(contrastive loss)により、マスクされた点群のクラスタ割り当てが復元された入力と一貫性を持つように促進し、(ii) 局所的点群予測損失により、マスクされた点の正確な予測を促進する。本手法を用いることで、学習された表現が、少サンプル分類、形状分類、オブジェクト部品セグメンテーション、さらには現実世界のシーンに基づく3次元オブジェクト検出および3次元セマンティックセグメンテーションといった多様な下流タスクに良好に転移できることを示した。特に、実測データを用いた難易度の高い少サンプル分類タスクにおいて、ScanObjectNNデータセットを用いて既存の事前学習手法を4%以上上回り、第二位の手法を大きく凌駕した。また、3次元オブジェクト検出タスクでは、第二位の手法に対してAP25で0.4%、AP50で0.8%の向上を達成した。さらに、3次元セマンティックセグメンテーションではmAccが0.4%、mIoUが0.5%向上した。コードはGitHubにて公開されており、https://github.com/TangYuan96/Point-LGMask から入手可能である。

Point-LGMask:マルチレシオマスキングを用いた点群事前学習における局所的・グローバルなコンテキスト埋め込み | 最新論文 | HyperAI超神経