7日前

X-Paste:CLIPおよびStableDiffusionを活用したインスタンスセグメンテーションにおけるスケーラブルなコピー・ペーストの再検討

Hanqing Zhao, Dianmo Sheng, Jianmin Bao, Dongdong Chen, Dong Chen, Fang Wen, Lu Yuan, Ce Liu, Wenbo Zhou, Qi Chu, Weiming Zhang, Nenghai Yu
X-Paste:CLIPおよびStableDiffusionを活用したインスタンスセグメンテーションにおけるスケーラブルなコピー・ペーストの再検討
要約

コピー・ペースト(Copy-Paste)は、インスタンスセグメンテーションにおいてシンプルかつ効果的なデータ拡張戦略である。物体インスタンスをランダムに新しい背景画像に貼り付けることで、無料で新たな学習データを生成でき、特に珍しい物体カテゴリにおいてセグメンテーション性能を著しく向上させる。これまでの研究では、多様で高品質な物体インスタンスを使用することで、さらなる性能向上が得られるが、そのインスタンスは人間によるアノテーションが施されたインスタンスセグメンテーションデータセットから得られるか、3Dオブジェクトモデルからレンダリングされたものに限られていた。しかし、これらのアプローチはスケーラビリティに欠け、十分な多様性を得ることは困難である。本論文では、新たに登場したゼロショット認識モデル(例:CLIP)およびテキストから画像を生成するモデル(例:Stable Diffusion)の力を活用して、コピー・ペーストを大規模に再検討する。初めて、テキストから画像を生成するモデルを用いて異なるオブジェクトカテゴリの画像を生成する、あるいはゼロショット認識モデルを用いてノイズの多いクロール画像をフィルタリングする手法が、コピー・ペーストを本質的にスケーラブルにする可能性を示した。この成果を実現するため、データ収集および処理フレームワーク「X-Paste」を設計し、その上で体系的な実験と分析を実施した。LVISデータセットにおいて、X-PasteはバックボーンにSwin-Lを用いた強力なベースラインであるCenterNet2に対して顕著な性能向上を達成した。具体的には、すべてのクラスにおいてボックスAPが+2.6、マスクAPが+2.1向上し、特に長尾クラスではボックスAPが+6.8、マスクAPが+6.5と、より大きな向上が確認された。本研究のコードおよびモデルは、https://github.com/yoctta/XPaste にて公開されている。

X-Paste:CLIPおよびStableDiffusionを活用したインスタンスセグメンテーションにおけるスケーラブルなコピー・ペーストの再検討 | 最新論文 | HyperAI超神経