要約
自動運転やゲームシステムに用いられる深度センサーは、しばしば3次元点群(3D point clouds)を出力する。しかし、こうしたセンサーから得られるデータには明確な構造が欠如しているため、従来の畳み込みニューラルネットワーク(CNN)が依存する従来のフィルタリングおよびプーリング操作を活用することができない。画像ベースの畳み込みアーキテクチャと同様に、最近提案されたグラフベースのアーキテクチャは、任意のグラフに対して類似のフィルタリングおよびプーリング操作を可能にする。本研究では、こうしたグラフベースの手法を3次元点群に適用し、3次元グラフの汎用的なベクトル表現を導入した。これを「グラフ3D(Graph 3D, G3D)」と呼ぶ。我々は、3次元点群データに対して大規模な転移学習(transfer learning)を初めて適用し、予期せぬテストセットにおいても、3次元点群の特徴的な潜在表現の識別力(discriminant power)を実証した。本研究で提案するG3Dネットワーク(G3DNet)を特徴抽出器として用い、その後標準的な分類器と組み合わせることで、グラフネットワークとしてはModelNet10(93.1%)、ModelNet40(91.7%)において最高の精度を達成した。また、Sydney Urban Objectsデータセットにおいても、他の手法と同等の性能を示した。この汎用的な特徴抽出器は、他の3次元シーン理解や物体追跡の研究においても即時利用可能なコンポーネントとして活用できる。