HyperAIHyperAI

Command Palette

Search for a command to run...

Können große vortrainierte Bildmodelle universelle Repräsentationen extrahieren?

Yutong Lin Ze Liu Zheng Zhang Han Hu Nanning Zheng Stephen Lin Yue Cao

Zusammenfassung

Eingefrorene vortrainierte Modelle sind zu einer tragfähigen Alternative zum Paradigma der Vortraining-und-dann-Finetuning für Transferlearning geworden. Allerdings stehen bei eingefrorenen Modellen nur relativ wenige Parameter zur Verfügung, um sich an nachgelagerte Aufgaben anzupassen, was in der Computer Vision problematisch ist, da die Aufgaben erheblich in Bezug auf Eingabe-/Ausgabeformat und den Typ der relevanten Informationen variieren. In dieser Arbeit präsentieren wir eine Studie über eingefrorene vortrainierte Modelle, die auf vielfältige und repräsentative Computer-Vision-Aufgaben angewendet werden, darunter Objekterkennung, semantische Segmentierung und Video-Aktionserkennung. Anhand dieser empirischen Analyse beantwortet unsere Arbeit die Fragen, welches Vortrainingsszenario am besten zu dieser eingefrorenen Einstellung passt, wie man die eingefrorene Einstellung flexibler für verschiedene nachgelagerte Aufgaben gestalten kann und welche Auswirkungen größere Modellgrößen haben. Zudem untersuchen wir die obere Leistungsgrenze unter Verwendung eines riesigen eingefrorenen vortrainierten Modells mit 3 Milliarden Parametern (SwinV2-G) und stellen fest, dass es bei nur einem gemeinsamen eingefrorenen Basismodul wettbewerbsfähige Ergebnisse auf einer Vielzahl wichtiger Benchmarks erzielt: 60,0 Box mAP und 52,2 Mask mAP im COCO-Objekterkennungstest-dev, 57,6 Val mIoU auf ADE20K-Semantischer-Segmentierung und 81,7 Top-1-Genauigkeit bei Kinetics-400-Aktionserkennung. Mit dieser Arbeit hoffen wir, mehr Aufmerksamkeit auf diesen vielversprechenden Ansatz des Einfrierens von vortrainierten Bildmodellen zu lenken.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Können große vortrainierte Bildmodelle universelle Repräsentationen extrahieren? | Paper | HyperAI