HyperAIHyperAI

Command Palette

Search for a command to run...

部屋の中のDINO:2次元基礎モデルを活用した3次元セグメンテーション

Karim Abou Zeid Kadir Yilmaz Daan de Geus Alexander Hermans David Adrian Timm Linder Bastian Leibe

概要

大規模な画像データセットで学習された視覚基盤モデル(Vision Foundation Models: VFMs)は、高品質な特徴量を提供し、2次元(2D)視覚認識の分野で顕著な進展をもたらしている。しかし、2D画像と3Dポイントクラウドデータセットが共に広く利用可能であるにもかかわらず、VFMsの3次元(3D)視覚における潜在的な価値は依然として十分に活用されていない。2D-3D融合に関する多くの研究が行われている一方で、最近の最先端3D手法は主に3Dデータに焦点を当てており、VFMsを3Dモデルに統合するアプローチは依然として十分に検討されていない。本研究では、この傾向に挑戦し、2D基盤モデルの特徴量を抽出し、それを3D空間に投影した後、3Dポイントクラウドセグメンテーションモデルに組み込むという、シンプルでありながら効果的な手法であるDITR(Dual-Image to 3D Representation)を提案する。DITRは、屋内および屋外の3Dセマンティックセグメンテーションベンチマークにおいて、最先端の性能を達成した。さらに、推論時に画像が利用できない状況でもVFMsを活用できるようにするため、2D基盤モデルを3Dバックボーンに知識蒸留(knowledge distillation)する前学習タスクを提案する。2D VFMsから得られた知識で3Dバックボーンを初期化することで、下流の3Dセグメンテーションタスクに対する強固な基礎を構築でき、さまざまなデータセットにおいて全体的な性能向上を実現した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています