2ヶ月前

Lowis3D: 言語駆動型オープンワールドのインスタンスレベル3Dシーン理解

Ding, Runyu ; Yang, Jihan ; Xue, Chuhui ; Zhang, Wenqing ; Bai, Song ; Qi, Xiaojuan
Lowis3D: 言語駆動型オープンワールドのインスタンスレベル3Dシーン理解
要約

オープンワールドのインスタンスレベルシーン理解は、アノテーション済みデータセットに存在しない未見の物体カテゴリを位置特定し認識することを目指しています。この課題は、モデルが新しい3Dオブジェクトを局所化するとともに、それらの意味カテゴリを推論する必要があるため、非常に困難です。最近の2Dオープンワールド認識における進歩の鍵となる要因は、インターネットから得られる大規模な画像-テキストペアの利用可能性であり、これらは広範な語彙概念をカバーしています。しかし、3Dシナリオでは3D-テキストペアが不足しているため、この成功を再現することは難しいです。この課題に対処するために、我々は事前学習されたビジョン言語(VL)基盤モデルを利用することを提案します。これらのモデルは画像-テキストペアから広範な知識をエンコードし、3Dシーンの多視点画像に対してキャプションを生成することができます。これにより、3D形状と意味豊かなキャプションとの明確な関連付けが可能になります。さらに、オブジェクトレベルの分類のためにキャプションから微細な視覚-意味表現学習を強化するため、階層的なポイント-キャプション関連付け手法を設計しました。これにより、3Dポイントと多視点画像間の3Dジオメトリを利用して意味情報を意識した埋め込みを学習することが可能になります。また、オープンワールド設定において新しいクラスの局所化課題に対処するために、バイアス除去型インスタンス局所化を開発しました。これは未ラベルデータ上でインスタンスレベル疑似教師あり監督を使用して物体グループ化モジュールを訓練することを含みます。これによりインスタンスグループ化の汎化能力が大幅に向上し、新しい物体を正確に位置特定する能力も向上します。我々は室内および室外シーンにわたる3つのデータセットで3Dセマンティックセグメンテーション、インスタンスセグメンテーションおよびパノプティックセグメンテーションタスクに関する広範な実験を行いました。結果として、我々の方法はベースライン方法よりもセマンティックセグメンテーション(例:34.5%〜65.3%)、インスタンスセグメンテーション(例:21.8%〜54.0%)、パノプティックセグメンテーション(例:14.7%〜43.3%)で大幅に優れた性能を示しました。コードは公開予定です。