2ヶ月前

2D事前学習モデルを用いた3D表現の学習: 画像から点へのマスクオートエンコーダーを介して

Zhang, Renrui ; Wang, Liuhui ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng
2D事前学習モデルを用いた3D表現の学習:
画像から点へのマスクオートエンコーダーを介して
要約

多数の画像データによる事前学習が堅牢な2D表現のためのデファクト標準となっています。一方で、高価なデータ取得とアノテーションのため、大規模3Dデータセットの不足が高品質3D特徴量の学習を著しく阻害しています。本論文では、2D事前学習モデルから優れた3D表現を得るための代替手法として、Image-to-Point Masked Autoencoders(I2P-MAE)を提案します。自己教師あり事前学習により、2D知識を活用して3Dマスクオートエンコーディングをガイドし、マスクされたポイントトークンをエンコーダー-デコーダー構造で再構築します。具体的には、まず市販の2Dモデルを使用して入力点群の多視点視覚特徴量を抽出し、その後その上に2種類の画像から点への学習スキームを行います。一つは、意味的に重要なポイントトークンがエンコーダーに対して可視化されるようにする2Dガイダンスによるマスキング戦略です。ランダムマスキングと比較すると、ネットワークはより重要な3D構造に集中し、主要な空間的な手がかりからマスクされたトークンを回復することができます。もう一つは、デコーダー後に対応する多視点2D特徴量を再構築するようにこれらの可視化トークンに強制することです。これにより、豊富な画像データから学んだ高レベルの2Dセマンティクスを効果的に継承し、識別的な3Dモデリングを行うことができます。当方の画像から点への事前学習のおかげで、微調整なしで凍結したI2P-MAEはModelNet40での線形SVMにおいて93.4%の精度を達成し、既存手法の完全訓練結果と競争力のある結果となりました。さらにScanObjectNN最难分類問題での微調整によって、I2P-MAEは最新最良の90.11%精度を達成し、次善の結果よりも+3.68%高い性能を示しました。これは優れた転移能力を持つことを証明しています。コードはhttps://github.com/ZrrSkywalker/I2P-MAE で公開されます。

2D事前学習モデルを用いた3D表現の学習: 画像から点へのマスクオートエンコーダーを介して | 最新論文 | HyperAI超神経