DiverGen: Verbesserung der Objektsegmentierung durch Lernen einer breiteren Datenausbreitung mit vielfältigerer generativer Daten

Instanzsegmentierung ist datenintensiv, und mit zunehmender Modellkapazität wird die Datenmenge zunehmend entscheidend für die Verbesserung der Genauigkeit. Die meisten heutigen Instanzsegmentierungsdatensätze erfordern kostspielige manuelle Annotationen, was ihre Datenskala begrenzt. Modelle, die auf solchen Daten trainiert werden, neigen besonders bei seltenen Kategorien stark zur Überanpassung am Trainingsdatensatz. Obwohl jüngere Arbeiten versuchen, generative Modelle zur Erzeugung synthetischer Datensätze für die Datenaugmentation auszunutzen, werden dabei die vollständigen Potenziale generativer Modelle nicht effizient erschlossen.Um diese Probleme anzugehen, stellen wir eine effizientere Strategie zur Konstruktion generativer Datensätze für die Datenaugmentation vor, die wir DiverGen nennen. Zunächst erläutern wir die Rolle generativer Daten aus der Perspektive der Verteilungsdisparität. Wir untersuchen den Einfluss verschiedener Datentypen auf die durch das Modell gelernte Verteilung. Wir argumentieren, dass generative Daten die Lernbarkeit der Modellverteilung erweitern können, wodurch Überanpassung gemildert wird. Zudem zeigen wir, dass die Vielfalt der generierten Daten entscheidend für die Verbesserung der Modellleistung ist, und steigern diese durch verschiedene Strategien, darunter Kategorienvielfalt, Prompt-Vielfalt und Vielfalt der generativen Modelle. Mit diesen Ansätzen können wir die Datenskala auf Millionen skalieren, während gleichzeitig der Trend der Modellleistungssteigerung erhalten bleibt. Auf dem LVIS-Datensatz übertrifft DiverGen das starke Modell X-Paste signifikant, erreicht +1,1 Box AP und +1,1 Mask AP über alle Kategorien hinweg, sowie +1,9 Box AP und +2,5 Mask AP für seltene Kategorien.