2ヶ月前

OpenIns3D: 3Dオープンボキャブラリインスタンスセグメンテーションのスナップとルックアップ

Huang, Zhening ; Wu, Xiaoyang ; Chen, Xi ; Zhao, Hengshuang ; Zhu, Lei ; Lasenby, Joan
OpenIns3D: 3Dオープンボキャブラリインスタンスセグメンテーションのスナップとルックアップ
要約

本研究では、OpenIns3Dという新しい3D入力専用のフレームワークを紹介します。このOpenIns3Dフレームワークは、「Mask-Snap-Lookup」スキームを採用しています。「Mask」モジュールは、3D点群データからクラスに依存しないマスク提案を学習し、「Snap」モジュールは複数のスケールで合成されたシーンレベルの画像を生成し、2Dビジョン言語モデルを利用して興味深い物体を抽出します。「Lookup」モジュールは、「Snap」の結果から検索を行い、提案されたマスクにカテゴリ名を割り当てます。このアプローチは単純ながら、室内および室外データセットにおいて認識、物体検出、インスタンスセグメンテーションなどの広範な3Dオープンボキャブラリタスクで最先端の性能を達成しています。さらに、OpenIns3Dは異なる2D検出器間での容易な切り替えを可能にし、再学習を行う必要がありません。強力な2Dオープンワールドモデルと統合すると、シーン理解タスクにおいて優れた結果を得ることができます。また、大規模言語モデル(LLM)駆動の2Dモデルと組み合わせると、複雑な推論や現実世界の知識が必要となる高次元のテキストクエリを理解し処理する能力が著しく向上します。プロジェクトページ: https://zheninghuang.github.io/OpenIns3D/

OpenIns3D: 3Dオープンボキャブラリインスタンスセグメンテーションのスナップとルックアップ | 最新論文 | HyperAI超神経