HyperAIHyperAI
vor 7 Tagen

X-Paste: Eine Neubewertung der skalierbaren Copy-Paste-Methode für die Instanzsegmentierung unter Verwendung von CLIP und StableDiffusion

Hanqing Zhao, Dianmo Sheng, Jianmin Bao, Dongdong Chen, Dong Chen, Fang Wen, Lu Yuan, Ce Liu, Wenbo Zhou, Qi Chu, Weiming Zhang, Nenghai Yu
X-Paste: Eine Neubewertung der skalierbaren Copy-Paste-Methode für die Instanzsegmentierung unter Verwendung von CLIP und StableDiffusion
Abstract

Copy-Paste ist eine einfache und effektive Strategie zur Daten-Augmentation für die Instanzsegmentierung. Durch das zufällige Einfügen von Objektinstanzen auf neue Hintergrundbilder wird kostenfrei neues Trainingsdatenmaterial generiert, was die Segmentierungspfleistung erheblich steigert, insbesondere für seltene Objektkategorien. Obwohl eine Vielzahl hochwertiger Objektinstanzen zu einer größeren Leistungssteigerung führt, basieren bisherige Ansätze entweder auf menschlich annotierten Instanzsegmentierungsdatensätzen oder auf aus 3D-Objektmodellen gerenderten Instanzen – beide Ansätze sind jedoch zu kostspielig, um eine ausreichende Vielfalt zu erreichen. In diesem Paper revidieren wir Copy-Paste im großen Maßstab mit Hilfe neu entstandener Zero-Shot-Erkennungsmodelle (z. B. CLIP) und Text-zu-Bild-Modellen (z. B. StableDiffusion). Erstmals zeigen wir, dass die Verwendung eines Text-zu-Bild-Modells zur Generierung von Bildern oder eines Zero-Shot-Erkennungsmodells zur Filterung von rauschbehaftet gecrawlten Bildern für verschiedene Objektkategorien eine praktikable Methode darstellt, um Copy-Paste wirklich skalierbar zu machen. Um diesen Erfolg zu ermöglichen, entwickeln wir einen Datenbeschaffungs- und -verarbeitungs-Framework, das wir „X-Paste“ nennen, auf dem eine systematische Studie durchgeführt wird. Auf dem LVIS-Datensatz erzielt X-Paste beeindruckende Verbesserungen gegenüber dem starken Baseline CenterNet2 mit Swin-L als Backbone. Insbesondere erreicht es +2,6 Box AP und +2,1 Mask AP auf allen Klassen und noch deutlich höhere Verbesserungen von +6,8 Box AP und +6,5 Mask AP für langschwänzige Klassen. Unsere Code- und Modellimplementierungen sind unter https://github.com/yoctta/XPaste verfügbar.

X-Paste: Eine Neubewertung der skalierbaren Copy-Paste-Methode für die Instanzsegmentierung unter Verwendung von CLIP und StableDiffusion | Neueste Forschungsarbeiten | HyperAI