18日前

ViewNet:少数ショット点群分類のための新しい投影ベースバックボーンとビュー平均化

{Senem Velipasalar, Minmin Yang, Jiajing Chen}
ViewNet:少数ショット点群分類のための新しい投影ベースバックボーンとビュー平均化
要約

3次元点群に関連するタスクに対してはさまざまなアプローチが提案されてきたが、3次元点群における少サンプル学習(Few-shot Learning, FSL)は依然として十分に検討されていない。FSLでは、従来の教師あり学習とは異なり、訓練データとテストデータのクラスが重複せず、モデルはわずかなサンプルから未観測のクラスを認識する必要がある。既存の3次元点群向けFSL手法は、点群ベースのモデルをバックボーンとして採用している。しかし、我々の広範な実験と分析の結果、点群ベースのバックボーンがFSLにおいて最も適切なアプローチではないことを初めて明らかにした。その理由は以下の通りである:(i)3次元点群ベースのバックボーンで用いられる最大プーリング操作により、多数の点の特徴が失われ、形状情報の表現能力が低下する;(ii)点群ベースのバックボーンは遮蔽(occlusion)に対して敏感である。これらの課題を解決するため、本研究では、投影手法と2次元畳み込みニューラルネットワーク(2D Convolutional Neural Network)に基づくバックボーン、すなわち「ViewNet」を3次元点群からのFSLに採用することを提案する。本手法は、3次元点群を6つの異なる視点に投影することで、点の欠損問題を軽減する。さらに、より記述力に富み、区別性の高い特徴を生成するため、複数の投影平面の組み合わせを5つのグループに分類し、それぞれに対して最大プーリングを適用する「View Pooling」を提案する。ModelNet40、ScanObjectNN、ModelNet40-Cの各データセットにおいてクロスバリデーションを用いた実験の結果、本手法は最先端のベースラインを一貫して上回ることが確認された。また、ResNetなどの従来の画像分類用バックボーンと比較して、提案するViewNetは点群の複数視点からより区別性の高い特徴を抽出可能であることが示された。さらに、ViewNetは異なるFSLヘッドと組み合わせて使用可能であり、従来用いられてきたバックボーンと比較して、性能の向上を実現できることも示した。