2ヶ月前
CrossPoint: 自教師クロスモーダル対照学習を用いた3Dポイントクラウド理解
Afham, Mohamed ; Dissanayake, Isuru ; Dissanayake, Dinithi ; Dharmasiri, Amaya ; Thilakarathna, Kanchana ; Rodrigo, Ranga

要約
大規模な点群データセットの手動アノテーションは、3Dオブジェクト分類、セグメンテーション、検出などの異なるタスクにおいて、点群の不規則な構造によりしばしば労力がかかる。人間のラベリングを必要としない自己監督学習は、この問題に対処する有望な手法である。現実世界での観察から、人間が2D画像から学んだ視覚的概念を3D世界の理解にマッピングできることが明らかになっている。この洞察に励まされて、我々はCrossPoint(クロスポイント)を提案する。これは単純なクロスモーダル対照学習アプローチであり、変換に対する不変性を促進しながら、点群と対応するレンダリングされた2D画像との間で不変空間における合意度を最大化することで、3D-2Dオブジェクト対応を可能にする転送可能な3D点群表現を学習する。我々の共同訓練目標は、モーダリティ内およびモーダリティ間の特徴対応を組み合わせることで、3D点群と2D画像の両方のモーダリティから豊富な学習信号を自己監督的に統合する。実験結果は、我々の手法が3Dオブジェクト分類やセグメンテーションなど多様な下流タスクにおいて以前の非教師あり学習方法よりも優れていることを示している。さらに、アブレーションスタディは我々の手法がより良い点群理解のために有効であることを証明している。コードと事前学習済みモデルは http://github.com/MohamedAfham/CrossPoint で利用可能である。