2ヶ月前

Open-YOLO 3D: 高速かつ正確なオープンボキャブラリー3Dインスタンスセグメンテーションを目指して

Boudjoghra, Mohamed El Amine ; Dai, Angela ; Lahoud, Jean ; Cholakkal, Hisham ; Anwer, Rao Muhammad ; Khan, Salman ; Khan, Fahad Shahbaz
Open-YOLO 3D: 高速かつ正確なオープンボキャブラリー3Dインスタンスセグメンテーションを目指して
要約

最近のオープンボキャブラリー3Dインスタンスセグメンテーションに関する研究は、強力な可能性を示していますが、推論速度の低下と高い計算リソースが必要というコストを伴っています。この高計算コストは、通常、3Dクリップ特徴量への強い依存によるもので、マルチビュー集合に2D基礎モデル(例:Segment Anything (SAM) および CLIP)を使用して3Dに集約する必要があります。その結果、高速かつ正確な予測を必要とする多くの実世界アプリケーションでの適用が制限されます。これに対処するために、我々は多視点RGB画像から2Dオブジェクト検出のみを効果的に活用し、オープンボキャブラリー3Dインスタンスセグメンテーションを行う高速かつ正確なアプローチであるOpen-YOLO 3Dを提案します。本タスクでは、シーン内のオブジェクトに対してクラス非依存の3Dマスクを生成し、それらをテキストプロンプトに関連付けることで対処します。我々は、クラス非依存の3Dポイントクラウドインスタンスの投影には既にインスタンス情報が含まれていることを観察しました。したがって、SAMを使用すると冗長性が生じて推論時間が無駄になる可能性があります。我々は経験的に、2Dオブジェクト検出器を使用することでテキストプロンプトと3Dマスクのマッチング性能がより速く達成できることを見出しました。我々はScanNet200とReplicaという2つのベンチマークにおいて、以下の2つのシナリオでOpen-YOLO 3Dの有効性を検証しました。(i) グラウンドトゥルーマスクを使用する場合:与えられたオブジェクト提案に対してラベルが必要です。(ii) 3D提案ネットワークから生成されたクラス非依存の3D提案を使用する場合。Open-YOLO 3Dは両データセットで最先端の性能を達成しながら、文献上の最良の既存手法と比較して最大約16倍の速度向上を実現しています。ScanNet200 val.セットにおいて、Open-YOLO 3Dは平均精度(mAP)24.7% を達成しており、シーンあたり22秒で動作します。コードとモデルはgithub.com/aminebdj/OpenYOLO3Dで公開されています。