2ヶ月前

画像セグメンテーションのためのテキストと画像プロンプトの使用

Lüddecke, Timo ; Ecker, Alexander S.
画像セグメンテーションのためのテキストと画像プロンプトの使用
要約

画像セグメンテーションは通常、固定されたオブジェクトクラスのセットに対してモデルを訓練することで対処されます。後で追加のクラスやより複雑なクエリを組み込むことは高コストであり、これらの表現を含むデータセットでモデルを再訓練する必要があります。本稿では、テスト時に任意のプロンプトに基づいて画像セグメンテーションを生成できるシステムを提案します。プロンプトはテキストまたは画像のいずれかです。このアプローチにより、参照表現セグメンテーション、ゼロショットセグメンテーション、ワンショットセグメンテーションという3つの一般的なセグメンテーションタスク(それぞれ異なる課題を持つ)に対して統一的なモデル(一度だけ訓練)を作成することが可能になります。我々はCLIPモデルを基盤として使用し、これを密集予測を可能にするトランスフォーマーベースのデコーダーで拡張しました。PhraseCutデータセットの拡張版での訓練後、当システムは自由形式のテキストプロンプトまたは追加のクエリを表す画像に基づいて、画像に対するバイナリセグメンテーションマップを生成します。後者の画像ベースのプロンプトのさまざまなバリエントについて詳細に分析しています。この新しいハイブリッド入力により、上記3つのセグメンテーションタスクだけでなく、テキストまたは画像クエリが定式化できる任意のバイナリセグメンテーションタスクへの動的な適応が可能になります。最後に、当システムがアフォーダンスや属性に関連する一般化されたクエリにも良好に対応できることを見出しました。コードは以下のURLから入手可能です: https://eckerlab.org/code/clipseg.

画像セグメンテーションのためのテキストと画像プロンプトの使用 | 最新論文 | HyperAI超神経