Vision Models sind robuster und fairer, wenn sie ohne Überwachung auf ungefilterten Bildern vortrainiert werden

Diskriminative selbstüberwachte Lernverfahren ermöglichen die Training von Modellen auf beliebigen, zufällig ausgewählten Bildern aus dem Internet und erlauben möglicherweise die Wiederherstellung von markanten Informationen, die zur Unterscheidung zwischen den Bildern beitragen. Angewandt auf ImageNet führen diese Ansätze zu objektorientierten Merkmalen, die in den meisten objektorientierten Nachaufgaben vergleichbare Leistung wie überwachte Merkmale erzielen. In dieser Arbeit untersuchen wir, ob wir diese Fähigkeit nutzen können, um beliebige markante und repräsentativere Informationen in einer vielfältigen, unbeschränkten Menge von Bildern aus der ganzen Welt zu lernen. Dazu trainieren wir Modelle auf Milliarden von zufälligen Bildern, ohne jegliche Datenvorverarbeitung oder vorherige Annahmen darüber, was das Modell lernen soll. Wir skalieren die Modellgröße auf dichte 10 Milliarden Parameter, um Unteranpassung bei der großen Datensatzgröße zu vermeiden. Wir untersuchen und validieren die Leistung unseres Modells umfassend an über 50 Benchmarks, darunter Fairness, Robustheit gegenüber Verteilungsverschiebungen, geographische Vielfalt, feinkörnige Erkennung, Erkennung von Bildkopien sowie zahlreiche Bildklassifikationsdatensätze. Das resultierende Modell erfasst nicht nur gut semantische Informationen, sondern erfasst auch Informationen über künstlerische Stile und lernt markante Merkmale wie geografische Positionen sowie mehrsprachige Wort-Embeddings ausschließlich auf Basis visueller Inhalte. Vor allem entdecken wir, dass solche Modelle robuster, fairer, weniger schädlich und weniger voreingenommen sind als überwachte Modelle oder Modelle, die auf objektorientierten Datensätzen wie ImageNet trainiert wurden.