Bamboo: Aufbau von Megaskaligen Bild-Datensätzen kontinuierlich mit menschlich-machine Synergie

Großskalige Datensätze spielen eine entscheidende Rolle in der Computer Vision. Derzeitige Datensätze werden jedoch blind annotiert, ohne Unterscheidung zwischen den einzelnen Samples, was die Datensammlung ineffizient und nicht skalierbar macht. Die offene Frage lautet, wie man einen Megaskalendatensatz aktiv aufbauen kann. Obwohl fortschrittliche Active-Learning-Algorithmen möglicherweise die Lösung darstellen, haben wir experimentell festgestellt, dass sie in realistischen Annotationsszenarien, in denen Daten außerhalb der Verteilung (out-of-distribution) weit verbreitet sind, an Leistungsfähigkeit verlieren. In dieser Arbeit stellen wir daher einen neuartigen Active-Learning-Framework für realistische Datensatzannotation vor. Mit diesem Framework haben wir einen hochwertigen visuellen Datensatz – Bamboo – erstellt, der aus 69 Millionen Bildklassifizierungsannotierungen mit 119.000 Kategorien und 28 Millionen Objektbegrenzungsannotierungen mit 809 Kategorien besteht. Wir haben diese Kategorien hierarchisch nach einem Taxonomie-System organisiert, das aus mehreren Wissensbasen integriert wurde. Die Klassifizierungsannotierungen sind viermal so groß wie die von ImageNet22K, während die Detektionsannotierungen dreimal größer sind als die von Object365. Im Vergleich zu ImageNet22K und Object365 erreichen Modelle, die auf Bamboo vortrainiert wurden, überlegene Leistung bei verschiedenen Downstream-Aufgaben (6,2 % Verbesserung bei der Klassifizierung und 2,1 % bei der Detektion). Wir sind überzeugt, dass unser Active-Learning-Framework und Bamboo für zukünftige Forschungsarbeiten von zentraler Bedeutung sind.