4ヶ月前
Take-A-Photo: ポイントクラウドモデルの3Dから2Dへの生成的前学習
Wang, Ziyi ; Yu, Xumin ; Rao, Yongming ; Zhou, Jie ; Lu, Jiwen

要約
MAE(Masked Autoencoder)が主導するマスク画像モデリングの傾向に圧倒的に影響を受け、生成事前学習は2Dビジョンにおける基本モデルの性能向上に著しい可能性を示しています。しかし、3Dビジョンでは、Transformerベースのバックボーンへの過度な依存と点群の非順序性により、生成事前学習のさらなる発展が制限されていました。本論文では、任意の点群モデルに適応可能な新しい3D-to-2D生成事前学習方法を提案します。我々はクロスアテンションメカニズムを用いて、指示された異なるポーズから視点画像を生成することを事前学習スキームとして提案します。視点画像の生成は、点群に対するものよりも精密な教師あり学習が可能であり、これにより3Dバックボーンが点群の幾何構造と立体関係をより細かく理解できるようになります。実験結果は、我々が提案した3D-to-2D生成事前学習方法が従来の事前学習方法よりも優れていることを証明しています。また、当方法は建築物指向アプローチの性能向上にも効果的で、ScanObjectNN分類タスクやShapeNetPartセグメンテーションタスクでのファインチューニングにおいて最先端の性能を達成しています。コードは https://github.com/wangzy22/TAP で公開されています。