2ヶ月前

OpenDAS: 開放語彙ドメイン適応による2Dおよび3Dセグメンテーション

Yilmaz, Gonca ; Peng, Songyou ; Pollefeys, Marc ; Engelmann, Francis ; Blum, Hermann
OpenDAS: 開放語彙ドメイン適応による2Dおよび3Dセグメンテーション
要約

最近、ビジョン言語モデル(VLMs)は、セグメンテーション技術を進歩させています。従来の事前定義されたオブジェクトクラスの閉集合セグメンテーションから、オープンボキャブラリーセグメンテーション(OVS)へとシフトすることで、ユーザーがセグメンテーションモデルの訓練中に見られなかった新しいクラスや概念をセグメント化できるようになりました。しかし、この柔軟性にはトレードオフがあります。完全教師ありの閉集合手法は、明示的に訓練された基本クラスにおいて依然としてOVS手法を上回っています。これは、VLMsが画像とキャプションのペアで訓練されるためピクセルアライメントされた訓練マスクが不足しており、自動運転などのドメイン固有の知識が欠けていることが原因です。そこで、我々はオープンボキャブラリー領域適応というタスクを提案します。これにより、VLMsにドメイン固有の知識を注入しつつ、そのオープンボキャブラリー性を保つことができます。これを行うことで、基本クラスと新規クラスでの性能向上が達成されます。既存のVLM適応手法は基本(訓練)クエリでの性能向上に成功していますが、新規クエリにおけるオープンセット機能を完全に保つことができません。この欠点に対処するために、我々はパラメータ効率的なプロンプトチューニングと補助的なネガティブクエリを使用するトリプレットロスベースの訓練戦略を組み合わせました。特に注目に値するのは、我々のアプローチが唯一新規クラスで一貫して元のVLMを超えるパラメータ効率的な方法であることです。我々が適応したVLMsは既存のOVSパイプラインにシームレスに統合できます。例えば、ADE20Kデータセットではオープンボキャブラリー2DセグメンテーションでOVSegのmIoU(平均交差比)を+6.0%向上させることができました。またScanNet++ Officesデータセットではオープンボキャブラリー3DインスタンスセグメンテーションでOpenMask3DのAP(平均精度)を+4.1%向上させることができました(他の変更なし)。プロジェクトページはhttps://open-das.github.io/で利用可能です。

OpenDAS: 開放語彙ドメイン適応による2Dおよび3Dセグメンテーション | 最新論文 | HyperAI超神経