Die erneute Betrachtung der unvernünftigen Effektivität von Daten im Zeitalter des Deep Learnings

Der Erfolg des Deep Learnings im Bereich der Bildverarbeitung kann den folgenden Faktoren zugeschrieben werden: (a) Modellen mit hoher Kapazität; (b) erhöhter Rechenleistung; und (c) Verfügbarkeit von groß angelegten annotierten Daten. Seit 2012 gab es erhebliche Fortschritte in den Darstellungsfähigkeiten der Modelle und der Rechenleistung von GPUs. Überraschenderweise ist jedoch die Größe des größten Datensatzes konstant geblieben. Was würde passieren, wenn wir die Größe des Datensatzes um das Zehnfache oder Hundertfache vergrößern? Diese Arbeit macht einen Schritt in Richtung Aufklärung der mysteriösen Beziehung zwischen "enormen Daten" und visuellem Deep Learning. Indem wir den JFT-300M-Datensatz nutzen, der mehr als 375 Millionen fehlerbehaftete Labels für 300 Millionen Bilder enthält, untersuchen wir, wie sich die Leistung bei aktuellen Visionssätzen ändern würde, wenn diese Daten für das Darstellungslernen verwendet würden. Unsere Arbeit liefert einige überraschende (und einige erwartete) Erkenntnisse. Erstens stellen wir fest, dass die Leistung bei Visionssätzen logarithmisch mit dem Umfang der Trainingsdatenmenge steigt. Zweitens zeigen wir, dass das Darstellungslernen (oder Pre-Training) noch viel Potenzial bietet. Man kann die Leistung bei vielen Visionssätzen verbessern, indem man einfach ein besseres Basismodell trainiert. Schließlich präsentieren wir, wie erwartet, neue Stand-von-der-Kunst-Ergebnisse für verschiedene Visionssätze, darunter Bildklassifizierung, Objekterkennung, semantische Segmentierung und menschliche Pose-Schätzung. Unser aufrichtiger Wunsch ist es, dass dies die Vision-Gemeinschaft inspiriert, die Bedeutung von Daten nicht zu unterschätzen und gemeinsame Anstrengungen zur Erstellung größerer Datensätze zu entwickeln.请注意,这里“Visionssätze”并不是一个标准的德语术语,但为了保持上下文的一致性和流畅性,我选择将其作为“vision tasks”的翻译。如果需要更专业的术语,请告知。