
大規模な点群データセットの手動アノテーションは、その不規則な構造のため労力が大きい。CrossPointやCrossNetといったマルチモーダルデータを活用した自己教師学習におけるクロスモーダル対比学習手法は進展を遂げているが、モダリティ内(IM)およびクロスモーダル(CM)損失の静的重み付けに起因する訓練の不安定性という課題を抱えている。これらの静的重みは、異なるモダリティ間での収束速度の違いを考慮できないため、学習の効率性と安定性に悪影響を及ぼす。本研究では、点群理解を目的とした新しい自己教師学習フレームワークAdaCrossNetを提案する。AdaCrossNetは、IMおよびCM対比学習における動的重み調整機構を用いて、3次元点群とその関連する2次元レンダリング画像の間の類似性を共通潜在空間内で同時に強化することで表現を学習する。本手法の動的重み調整機構は、各モダリティの収束挙動に従って、IM損失とCM損失の寄与を適応的にバランスさせる。訓練の安定性を確保するため、重み更新の平滑化に指数移動平均(EWMA)を採用している。標準ベンチマークデータセットであるModelNet40、ShapeNetPart、ScanObjectNNを用いた実験の結果、AdaCrossNetは他の手法を上回る性能を示した。ModelNet40の分類タスクでは91.4%の精度を達成し、ShapeNetPartのセグメンテーションタスクではmIoUスコア85.1%を記録した。さらに、DGCNNバックボーンと組み合わせた場合、ScanObjectNNデータセットにおいて82.1%の精度を達成し、顕著な性能向上を示した。本手法は、学習効率の向上と下流タスクにおける学習表現の汎化能力の向上を両立することに成功した。