2ヶ月前

Point-Voxel CNNによる効率的な3D深層学習

Zhijian Liu; Haotian Tang; Yujun Lin; Song Han
Point-Voxel CNNによる効率的な3D深層学習
要約

私たちは効率的で高速な3次元深層学習のためのPoint-Voxel CNN (PVCNN) を提案します。従来の研究では、3次元データを処理するためにボクセルベースまたはポイントベースのニューラルネットワークモデルが使用されてきました。しかし、これらのアプローチはいずれも計算上非効率的です。ボクセルベースのモデルの場合、計算コストとメモリ使用量は入力解像度に立方的に比例して増加し、解像度を向上させることがメモリ制約によって困難となります。一方、ポイントベースのネットワークでは、疎なデータの構造化に最大80%の時間が浪費され、実際の特徴抽出にはほとんど時間を使えていません。この論文中、私たちは3次元入力データをポイントで表現することでメモリ消費を削減し、同時にボクセルで畳み込みを行うことで不規則な疎なデータアクセスを減少させ、局所性を改善するPVCNNを提案します。私たちのPVCNNモデルはメモリ効率と計算効率が両方とも優れています。意味分割および部品分割データセットでの評価において、PVCNNはボクセルベースの基準モデルよりも10倍のGPUメモリ削減とともに大幅に高い精度を達成しています。また、平均して7倍の速度向上を示す最新のポイントベースモデルよりも優れた性能を発揮しています。特に、狭いバージョンのPVCNNは部分およびシーン分割ベンチマークにおいて非常に効率的なモデルであるPointNetに対して2倍以上の速度向上と大幅に高い精度を達成しています。さらに、私たちはPVCNNの一貫した有効性を3次元物体検出でも確認しました。Frustrum PointNetにおける基本要素をPVConvに置き換えることで、平均して2.4% mAP(平均精度)向上と1.5倍の速度向上およびGPUメモリ削減と共にFrustrum PointNet++を超える性能を達成しました。

Point-Voxel CNNによる効率的な3D深層学習 | 最新論文 | HyperAI超神経