15日前

部屋の中のDINO:2次元基礎モデルを活用した3次元セグメンテーション

Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe
部屋の中のDINO:2次元基礎モデルを活用した3次元セグメンテーション
要約

大規模な画像データセットで学習された視覚基盤モデル(Vision Foundation Models: VFMs)は、高品質な特徴量を提供し、2次元(2D)視覚認識の分野で顕著な進展をもたらしている。しかし、2D画像と3Dポイントクラウドデータセットが共に広く利用可能であるにもかかわらず、VFMsの3次元(3D)視覚における潜在的な価値は依然として十分に活用されていない。2D-3D融合に関する多くの研究が行われている一方で、最近の最先端3D手法は主に3Dデータに焦点を当てており、VFMsを3Dモデルに統合するアプローチは依然として十分に検討されていない。本研究では、この傾向に挑戦し、2D基盤モデルの特徴量を抽出し、それを3D空間に投影した後、3Dポイントクラウドセグメンテーションモデルに組み込むという、シンプルでありながら効果的な手法であるDITR(Dual-Image to 3D Representation)を提案する。DITRは、屋内および屋外の3Dセマンティックセグメンテーションベンチマークにおいて、最先端の性能を達成した。さらに、推論時に画像が利用できない状況でもVFMsを活用できるようにするため、2D基盤モデルを3Dバックボーンに知識蒸留(knowledge distillation)する前学習タスクを提案する。2D VFMsから得られた知識で3Dバックボーンを初期化することで、下流の3Dセグメンテーションタスクに対する強固な基礎を構築でき、さまざまなデータセットにおいて全体的な性能向上を実現した。

部屋の中のDINO:2次元基礎モデルを活用した3次元セグメンテーション | 最新論文 | HyperAI超神経