LiDARセマンティックセグメンテーションにおけるポイントからボクセルへの知識蒸留

本稿では、LiDARによるセマンティックセグメンテーションにおいて、大規模な教師モデルから軽量な学生ネットワークへ知識を効果的に蒸留する問題に取り組む。従来の蒸留手法を直接適用すると、点群データ固有の課題——疎性、ランダム性、密度の変動——により、性能が劣化する。この問題を克服するため、本研究では「Point-to-Voxel Knowledge Distillation(PVD)」を提案する。PVDは、点レベルとボクセルレベルの両方から隠れ知識を転送するアプローチである。具体的には、まず点単位およびボクセル単位の出力蒸留を併用することで、疎な教師信号を補完する。さらに、構造情報の有効活用を図るため、全体の点群を複数のスーパーボクセルに分割し、頻度の低いクラスや遠方の物体を含むスーパーボクセルをより頻繁にサンプリングする「困難度に配慮したサンプリング戦略」を設計する。これらのスーパーボクセル上で、点間およびボクセル間の類似性蒸留(affinity distillation)を提案。これにより、点とボクセル間の類似性情報が学生モデルに周囲環境の構造的特徴をより正確に捉える能力を向上させる。本研究では、代表的なLiDARセグメンテーションベンチマークであるnuScenesおよびSemanticKITTIの両方で広範な実験を実施。いずれのベンチマークにおいても、Cylinder3D、SPVNAS、MinkowskiNetの3つの代表的なバックボーンに対して、従来の蒸留手法を大幅に上回る性能を達成した。特に、難易度の高いnuScenesおよびSemanticKITTIデータセットにおいて、競合するCylinder3Dモデルに対して約75%のMACs削減と2倍の高速化を実現し、SemanticKITTIのリーダーボードでは公開されているすべてのアルゴリズムの中で1位を獲得した。本研究のコードは、https://github.com/cardwing/Codes-for-PVKD にて公開されている。