2ヶ月前
オープンボキャブラリ全景分割におけるテキストから画像の拡散モデルの利用
Jiarui Xu; Sifei Liu; Arash Vahdat; Wonmin Byeon; Xiaolong Wang; Shalini De Mello

要約
私たちはODISE(Open-vocabulary DIffusion-based panoptic SEgmentation)を発表します。この手法は、事前学習されたテキスト-画像拡散モデルと識別モデルを統合し、オープンボキャブラリーのパノプティックセグメンテーションを実行します。テキスト-画像拡散モデルは、多様なオープンボキャブラリーの言語記述から高品質の画像を生成するという卓越した能力を持っています。これは、これらのモデルの内部表現空間が現実世界のオープン概念と高い相関性を持っていることを示しています。一方、CLIPなどのテキスト-画像識別モデルは、画像をオープンボキャブラリーのラベルに分類することが得意です。私たちのアプローチでは、これらの両方のモデルの固定された内部表現を利用して、自然界にある任意のカテゴリに対するパノプティックセグメンテーションを行います。当手法は、オープンボキャブラリーのパノプティックセグメンテーションおよび意味セグメンテーションタスクにおいて、従来の最先端技術を大幅に上回る性能を達成しています。特にCOCOデータセットでのみ学習した場合でも、ADE20Kデータセット上で23.4 PQ(Panoptic Quality)および30.0 mIoU(mean Intersection over Union)を達成しており、それぞれ従来の最先端技術に対して8.3 PQおよび7.9 mIoUの絶対的な改善となっています。当研究ではコードとモデルをオープンソース化し、https://github.com/NVlabs/ODISE で公開しています。