2ヶ月前
OpenMask3D: オープンボキャブラリー3Dインスタンスセグメンテーション
Takmaz, Ayça ; Fedele, Elisabetta ; Sumner, Robert W. ; Pollefeys, Marc ; Tombari, Federico ; Engelmann, Francis

要約
私たちはオープンボキャブラリーの3次元インスタンスセグメンテーションというタスクを紹介します。現在の3次元インスタンスセグメンテーション手法は、通常、トレーニングデータセットでアノテーションが行われている事前に定義された閉集合クラスからのみオブジェクトカテゴリを認識できます。これにより、実世界のアプリケーションにおいて、新しいオープンボキャブラリークエリに基づいて多種多様なオブジェクトに関連するタスクを実行する必要がある場合に重要な制限が生じます。最近、この問題に対処するために、シーン内の各ポイントに対してクエリ可能な特徴を学習するオープンボキャブラリーの3次元シーン理解手法が登場しました。このような表現は直接的にセマンティックセグメンテーションを行うために使用できますが、既存の手法では複数のオブジェクトインスタンスを分離することはできません。本研究では、この制限に対処し、ゼロショットアプローチであるOpenMask3Dを提案します。予測されたクラス非依存の3次元インスタンスマスクによってガイダンスを受けながら、私たちのモデルはCLIPベースの画像埋め込みによるマルチビュー融合を通じてマスクごとの特徴を集約します。ScanNet200とReplicaにおける実験とアブレーションスタディーは、OpenMask3Dが他のオープンボキャブラリーメソッドよりも優れていることを示しており、特に長尾分布においてその性能が際立っています。質的な実験ではさらに、OpenMask3Dがジオメトリーやアフォーダンス、材料などを記述した自由形式のクエリに基づいてオブジェクトプロパティをセグメント化する能力が示されています。