2ヶ月前
階層的オープンボキャブラリー普遍的画像セグメンテーション
Wang, Xudong ; Li, Shufan ; Kallidromitis, Konstantinos ; Kato, Yusuke ; Kozuka, Kazuki ; Darrell, Trevor

要約
オープンボキャブラリー画像セグメンテーションは、任意のテキスト記述に従って画像を意味的な領域に分割することを目指しています。しかし、複雑な視覚シーンは自然に単純な部分に分解され、異なる粒度レベルで抽象化されるため、固有のセグメンテーションの曖昧性が生じます。既存の手法が通常この曖昧性を回避し、外部要因として扱うのとは異なり、当方針では学習プロセスに異なる意味レベルを含む階層表現を積極的に組み込むことを提案します。私たちは「もの」(things)と「素材」(stuff)の両方に対する分離型テキスト-画像融合メカニズムおよび表現学習モジュールを提案します。さらに、これらのカテゴリ間で存在するテキスト特徴量と視覚特徴量の違いを系統的に検討しました。私たちが開発したモデルHIPIE(Hierarchical, Open-vocabulary, and Universal Image Segmentation)は、統一されたフレームワーク内で階層的、オープンボキャブラリー、および普遍的なセグメンテーションタスクに対処します。40以上のデータセット(例:ADE20K, COCO, Pascal-VOC Part, RefCOCO/RefCOCOg, ODinW, SeginW)でのベンチマーク評価において、HIPIEは意味レベル(例:意味セグメンテーション)、インスタンスレベル(例:パノプティック/参照セグメンテーションおよび物体検出)、部品レベル(例:部品/サブ部品セグメンテーション)の様々な画像理解タスクで最先端の結果を達成しています。コードは https://github.com/berkeley-hipie/HIPIE で公開されています。