2ヶ月前
SegGPT: 文脈におけるすべてのセグメンテーション
Xinlong Wang; Xiaosong Zhang; Yue Cao; Wen Wang; Chunhua Shen; Tiejun Huang

要約
私たちはSegGPTを提案します。これは、文脈の中ですべてのセグメンテーションを行うための汎用モデルです。様々なセグメンテーションタスクを統一し、異なる種類のセグメンテーションデータを同じ形式の画像に変換することで、汎用的な文脈学習フレームワークを構築しました。SegGPTの訓練は、各データサンプルに対してランダムな色マッピングを使用した文脈内の着色問題として定式化されています。目的は特定の色に依存することなく、文脈に応じて多様なタスクを達成することです。訓練後、SegGPTは文脈推論を通じて画像や動画における任意のセグメンテーションタスク(オブジェクトインスタンス、もの、部分、輪郭、およびテキストなど)を実行できます。SegGPTは少ショット意味セグメンテーション、動画オブジェクトセグメンテーション、意味セグメンテーション、パノプティックセグメンテーションなど幅広いタスクで評価されました。私たちの結果は、定性的にも定量的にもドメイン内およびドメイン外の対象物に対する強力なセグメンテーション能力を示しています。