2ヶ月前
3D-JEPA: 3次元自己監督表現学習のための合同埋め込み予測アーキテクチャ
Hu, Naiwen ; Cheng, Haozhe ; Xie, Yifan ; Li, Shiqi ; Zhu, Jihua

要約
不変性ベースおよび生成的手法は、3次元自己監督表現学習(3D SSRL)において顕著な性能を示しています。しかし、前者は手動で作成されたデータ拡張に依存しており、これはすべての下流タスクに普遍的に適用できるバイアスを導入します。後者はマスクされた領域を無差別に再構成するため、表現空間に無関係な詳細が保存される可能性があります。これらの問題を解決するために、私たちは3D-JEPAという新しい非生成的な3次元自己監督表現学習フレームワークを提案します。具体的には、情報量が十分なコンテキストブロックといくつかの代表的なターゲットブロックを生成するマルチブロックサンプリング戦略を提案します。また、コンテキスト情報に基づいてターゲットブロックの再構成を強化するコンテキストアウェアデコーダーを提示します。具体的には、コンテキスト情報がデコーダーに継続的に供給され、エンコーダーがターゲットブロックに関連するコンテキスト情報を記憶するのではなく、意味論的なモデリングを学習することを容易にします。全体として、3D-JEPAはエンコーダーとコンテキストアウェアデコーダーのアーキテクチャを使用して、コンテキストブロックからターゲットブロックの表現を予測します。異なるデータセットでの様々な下流タスクを通じて、3D-JEPAの有効性と効率性が示されており、少ない事前学習エポック数で高い精度を達成しています。例えば、PB_T50_RSでは150エポックの事前学習で88.65%の精度を達成しています。