Command Palette
Search for a command to run...
オープンボキャブラリ全景分割におけるテキストから画像の拡散モデルの利用
オープンボキャブラリ全景分割におけるテキストから画像の拡散モデルの利用
Jiarui Xu extsuperscript1 hanksJiarui Xu was an intern at NVIDIA during the project. Sifei Liu extsuperscript2 hanksequal contribution. Arash Vahdat extsuperscript2 Wonmin Byeon extsuperscript2 Xiaolong Wang extsuperscript1 Shalini De Mello extsuperscript2
概要
私たちはODISE(Open-vocabulary DIffusion-based panoptic SEgmentation)を発表します。この手法は、事前学習されたテキスト-画像拡散モデルと識別モデルを統合し、オープンボキャブラリーのパノプティックセグメンテーションを実行します。テキスト-画像拡散モデルは、多様なオープンボキャブラリーの言語記述から高品質の画像を生成するという卓越した能力を持っています。これは、これらのモデルの内部表現空間が現実世界のオープン概念と高い相関性を持っていることを示しています。一方、CLIPなどのテキスト-画像識別モデルは、画像をオープンボキャブラリーのラベルに分類することが得意です。私たちのアプローチでは、これらの両方のモデルの固定された内部表現を利用して、自然界にある任意のカテゴリに対するパノプティックセグメンテーションを行います。当手法は、オープンボキャブラリーのパノプティックセグメンテーションおよび意味セグメンテーションタスクにおいて、従来の最先端技術を大幅に上回る性能を達成しています。特にCOCOデータセットでのみ学習した場合でも、ADE20Kデータセット上で23.4 PQ(Panoptic Quality)および30.0 mIoU(mean Intersection over Union)を達成しており、それぞれ従来の最先端技術に対して8.3 PQおよび7.9 mIoUの絶対的な改善となっています。当研究ではコードとモデルをオープンソース化し、https://github.com/NVlabs/ODISE で公開しています。