13日前
言語駆動型セマンティックセグメンテーション
Boyi Li, Kilian Q. Weinberger, Serge Belongie, Vladlen Koltun, René Ranftl

要約
本稿では、言語駆動型のセマンティック画像セグメンテーションを実現する新たなモデルであるLSegを提案する。LSegは、入力ラベル(例:「芝生」や「建物」)の記述情報をエンコードするテキストエンコーダと、入力画像の各画素ごとに密な埋め込み表現を計算するTransformerベースの画像エンコーダを用いる。画像エンコーダは、対応するセマンティッククラスのテキスト埋め込みと一致するように、画素埋め込みを整列させるための対照的(contrastive)目的関数に基づいて学習される。このテキスト埋め込みは、意味的に類似したラベルが埋め込み空間内で類似した領域にマッピングされる柔軟なラベル表現を提供する(例:「猫」と「毛むくじゃら」)。これにより、LSegはテスト時に再訓練や追加の学習サンプルを一切必要とせずに、事前に観測されていないカテゴリへも一般化が可能となる。我々は、既存のゼロショットおよびフェイショットセマンティックセグメンテーション手法と比較して、非常に競争力のあるゼロショット性能を達成できることを実証した。さらに、固定ラベルセットが与えられた場合には、従来のセグメンテーションアルゴリズムと同等の精度を達成している。コードおよびデモは、https://github.com/isl-org/lang-seg にて公開されている。