大規模3D表現学習への向けて、複数データセットを用いたポイントプロンプト学習

深層学習モデルの急速な進展は、膨大な訓練データを活用できる能力に起因する場合が多い。一方で、このような利点はまだ3D深層学習に十分に還元されておらず、主に大規模な3Dデータセットの限られた可用性が要因となっている。複数の既存データソースを統合し、それらを共同で一つのモデルに訓練させるアプローチは、有望な解決策である。しかし、3Dポイントクラウドデータセット間には大きなドメインギャップが存在するため、このような混合監視(mixed supervision)はモデルの性能を悪化させ、単一データセットでの学習と比較して性能が低下する(すなわち、ネガティブな転移:negative transfer)リスクを伴う。この課題に鑑み、本研究では、3D表現学習の文脈において複数データセット間の協調学習を実現する新規フレームワーク「Point Prompt Training(PPT)」を提案する。このフレームワークは、複数の事前学習パラダイムをサポートしている。さらに、PPTに基づき、ドメイン固有のプロンプトを用いてモデルを異なるデータセットに適応させる「プロンプト駆動型正規化(Prompt-driven Normalization)」、およびラベルテキスト間の関係を活用して複数データセットのラベル空間を効果的に統一する「言語誘導型カテゴリ統合(Language-guided Categorical Alignment)」を提案する。広範な実験により、PPTが協調学習に伴うネガティブな転移を克服し、汎化可能な表現を生成できることを実証した。特に、一つの重み共有モデルを用いて教師付きの多データセット学習を行うことで、各データセットにおいて最先端の性能を達成している。また、事前学習フレームワークとして用いた場合、他の事前学習手法と比較して表現の質が優れており、屋内・屋外を問わず多様な3Dシナリオにまたがる10以上の下流タスクにおいて、顕著な最先端性能を達成している。