HyperAIHyperAI

Command Palette

Search for a command to run...

画像セグメンテーションのためのテキストと画像プロンプトの使用

Lüddecke Timo ; Ecker Alexander S.

概要

画像セグメンテーションは通常、固定されたオブジェクトクラスのセットに対してモデルを訓練することで対処されます。後で追加のクラスやより複雑なクエリを組み込むことは高コストであり、これらの表現を含むデータセットでモデルを再訓練する必要があります。本稿では、テスト時に任意のプロンプトに基づいて画像セグメンテーションを生成できるシステムを提案します。プロンプトはテキストまたは画像のいずれかです。このアプローチにより、参照表現セグメンテーション、ゼロショットセグメンテーション、ワンショットセグメンテーションという3つの一般的なセグメンテーションタスク(それぞれ異なる課題を持つ)に対して統一的なモデル(一度だけ訓練)を作成することが可能になります。我々はCLIPモデルを基盤として使用し、これを密集予測を可能にするトランスフォーマーベースのデコーダーで拡張しました。PhraseCutデータセットの拡張版での訓練後、当システムは自由形式のテキストプロンプトまたは追加のクエリを表す画像に基づいて、画像に対するバイナリセグメンテーションマップを生成します。後者の画像ベースのプロンプトのさまざまなバリエントについて詳細に分析しています。この新しいハイブリッド入力により、上記3つのセグメンテーションタスクだけでなく、テキストまたは画像クエリが定式化できる任意のバイナリセグメンテーションタスクへの動的な適応が可能になります。最後に、当システムがアフォーダンスや属性に関連する一般化されたクエリにも良好に対応できることを見出しました。コードは以下のURLから入手可能です: https://eckerlab.org/code/clipseg.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
画像セグメンテーションのためのテキストと画像プロンプトの使用 | 記事 | HyperAI超神経