ワンショットでセグメント・アニーthingモデルをパーソナライズする

大規模データの事前学習によって駆動されるセグメンテーション・アニー・モデル(Segment Anything Model: SAM)は、強力でプロンプト可能なフレームワークとしてその有効性が示されており、セグメンテーションモデルの分野を革命的に変えるものとなっています。しかし、特定の視覚的概念に対するSAMのカスタマイズについて、人力によるプロンプトなしでの研究はまだ十分に行われていません。例えば、異なる画像から自動的に自分のペット犬をセグメントするといった課題です。本論文では、訓練を必要としないSAMのパーソナライゼーション手法であるPerSAMを提案します。単一の画像と参照マスクのみが与えられた場合、PerSAMは位置情報に基づいて目標概念を局所化し、他の画像やビデオ内でのセグメンテーションをターゲットガイダンス注意(target-guided attention)、ターゲット意味プロンプティング(target-semantic prompting)、および段階的な後処理(cascaded post-refinement)という3つの技術により行います。これにより、SAMを無訓練でプライベート用途に適応させることが可能となります。さらにマスクの曖昧さを軽減するために、効率的なワンショット微調整バリアントであるPerSAM-Fも提示します。全体のSAMをフリーズした上で、マルチスケールマスク用に2つの学習可能な重みを導入し、10秒以内に2つのパラメータのみを訓練することで性能向上を目指します。我々の手法の有効性を示すために、新しいセグメンテーションデータセットPerSegを作成し、パーソナライズ評価を行いました。また、ビデオオブジェクトセグメンテーションにおいて競争力のある性能でテストを行いました。さらに本手法はDreamBoothとの組み合わせにより、Stable Diffusionのテキストから画像生成へのパーソナライズも強化できます。これにより背景ノイズが排除され、より良い目標外観学習が可能となります。コードは以下のURLで公開されています:https://github.com/ZrrSkywalker/Personalize-SAM