Können große vortrainierte Bildmodelle universelle Repräsentationen extrahieren?

Eingefrorene vortrainierte Modelle sind zu einer tragfähigen Alternative zum Paradigma der Vortraining-und-dann-Finetuning für Transferlearning geworden. Allerdings stehen bei eingefrorenen Modellen nur relativ wenige Parameter zur Verfügung, um sich an nachgelagerte Aufgaben anzupassen, was in der Computer Vision problematisch ist, da die Aufgaben erheblich in Bezug auf Eingabe-/Ausgabeformat und den Typ der relevanten Informationen variieren. In dieser Arbeit präsentieren wir eine Studie über eingefrorene vortrainierte Modelle, die auf vielfältige und repräsentative Computer-Vision-Aufgaben angewendet werden, darunter Objekterkennung, semantische Segmentierung und Video-Aktionserkennung. Anhand dieser empirischen Analyse beantwortet unsere Arbeit die Fragen, welches Vortrainingsszenario am besten zu dieser eingefrorenen Einstellung passt, wie man die eingefrorene Einstellung flexibler für verschiedene nachgelagerte Aufgaben gestalten kann und welche Auswirkungen größere Modellgrößen haben. Zudem untersuchen wir die obere Leistungsgrenze unter Verwendung eines riesigen eingefrorenen vortrainierten Modells mit 3 Milliarden Parametern (SwinV2-G) und stellen fest, dass es bei nur einem gemeinsamen eingefrorenen Basismodul wettbewerbsfähige Ergebnisse auf einer Vielzahl wichtiger Benchmarks erzielt: 60,0 Box mAP und 52,2 Mask mAP im COCO-Objekterkennungstest-dev, 57,6 Val mIoU auf ADE20K-Semantischer-Segmentierung und 81,7 Top-1-Genauigkeit bei Kinetics-400-Aktionserkennung. Mit dieser Arbeit hoffen wir, mehr Aufmerksamkeit auf diesen vielversprechenden Ansatz des Einfrierens von vortrainierten Bildmodellen zu lenken.