17日前

マスクドシーンコントラスト:教師なし3次元表現学習のためのスケーラブルなフレームワーク

Xiaoyang Wu, Xin Wen, Xihui Liu, Hengshuang Zhao
マスクドシーンコントラスト:教師なし3次元表現学習のためのスケーラブルなフレームワーク
要約

PointContrastは、原始的なRGB-Dフレームを用いた対照学習(contrastive learning)により、非教師付き3D表現学習を実現する画期的な研究であり、さまざまな下流タスクにおける有効性を実証した。しかし、これまでの研究で指摘された「RGB-Dフレーム間の対応付けの非効率性」と「モード崩壊(mode collapse)現象」の二つの障壁により、3D分野における大規模非教師付き学習のトレンドはまだ広がっていない。本研究では、これらの課題を実証的なステップに転換し、以下の二つの革新を提案する。第一に、適切に設計されたデータ拡張パイプラインと実用的なビュー混合戦略を用いて、シーンレベルの点群データ上から直接対照的ビューを生成する、効率的かつ有効な対照学習フレームワークを提案する。第二に、対照的ビュー間のマスクを精巧に設計した「対照的クロスマスク(contrastive cross masks)」を導入し、対照学習フレームワーク上に再構成学習(reconstructive learning)を組み込むことで、点群の色とサーフェル法線の再構成を明確に狙う。本研究で提唱する「マスクドシーン対照学習(Masked Scene Contrast: MSC)」フレームワークは、より効率的かつ効果的に包括的な3D表現を抽出可能である。従来手法と比較して、事前学習プロセスを3倍以上高速化しつつ、性能の妥協なしに高い成果を達成している。さらに、MSCは複数のデータセットにまたがる大規模3D事前学習を可能にし、下流タスクにおける性能をさらに向上させ、特にScanNetにおけるセマンティックセグメンテーションの検証セットで75.5%のmIoUという最先端の微調整性能を達成している。