2ヶ月前
効率的な3Dアーキテクチャの探索にSparse Point-Voxel畳み込みの利用
Haotian Tang; Zhijian Liu; Shengyu Zhao; Yujun Lin; Ji Lin; Hanrui Wang; Song Han

要約
自動運転車は、安全に走行するためには効率的かつ正確に3次元シーンを理解する必要があります。限られたハードウェアリソースの下で、既存の3次元認識モデルは低解像度のボクセル化と積極的なダウンサンプリングのために、小規模なオブジェクト(例:歩行者、自転車乗り)を十分に認識できていません。この問題に対処するために、私たちはSparse Point-Voxel Convolution (SPVConv) を提案します。これは、標準的なスパース畳み込みに高解像度のポイントベースのブランチを追加した軽量な3次元モジュールです。このポイントベースのブランチは、わずかなオーバーヘッドで大規模な屋外シーンからも微細な詳細を保つことができます。効率的な3次元モデルの範囲を探るため、まずSPVConvに基づいた柔軟なアーキテクチャ設計空間を定義し、次に3D Neural Architecture Search (3D-NAS) を導入して、この多様な設計空間から効率的かつ効果的に最適なネットワークアーキテクチャを探索します。実験結果は、得られたSPVNASモデルが高速かつ正確であることを証明しています。具体的には、最新のMinkowskiNetよりも3.3%優れた性能を示し、競争力のあるSemanticKITTIリーダーボードで1位となっています。また、より高い精度でMinkowskiNetに対して8倍の計算量削減と3倍の速度向上を達成しています。最後に、私たちの方法を3次元物体検出に適用しました。その結果、KITTIデータセットでの一段階検出基準に対して一貫した改善が見られました。