Vortraining Einmal
Pre-training Once (POA) ist ein Konzept, das von der Ant Group in dem Artikel „POA: Einmaliges Vortraining für Modelle aller GrößenIn [15] wurde ein selbstüberwachtes Trainingsframework mit drei Zweigen vorgeschlagen, das einen elastischen Studentenzweig einführt und in jedem Vortrainingsschritt zufällig ausgewählte Teilnetzwerke für das Training auswählt. POA kann in einem einzigen Vortraining Modelle unterschiedlicher Größe generieren, was für nachgelagerte Aufgaben geeignet ist. Experimente haben gezeigt, dass es bei mehreren Aufgaben eine hochmoderne Leistung erzielt.
Hintergrund
Durch groß angelegtes, selbstüberwachtes Vortraining wird der Weg für ein Basismodell geebnet, das viele verschiedene Vision-Aufgaben bewältigen kann. Die meisten Vortrainingsmethoden trainieren jeweils nur ein Modell einer bestimmten Größe. Allerdings erfordern verschiedene Rechen- oder Speicherbeschränkungen in realen Szenarien erhebliche Anstrengungen, um eine Reihe von Modellen unterschiedlicher Größe für den Einsatz zu entwickeln. In dieser Studie wurden die oben genannten Probleme behandelt.
Übersicht über das einmalige Vortraining
Einführung innovativer, belastbarer Studentenzweige in das moderne Paradigma der Selbstverfeinerung. In jedem Vortrainingsschritt extrahierte das Forschungsteam zufällig ein Teilnetzwerk aus dem ursprünglichen Studenten, um den elastischen Studenten zu bilden, und trainierte alle Zweige auf selbstverfeinernde Weise. Sobald das Vortraining abgeschlossen ist, kann POA vortrainierte Modelle unterschiedlicher Größe für nachgelagerte Aufgaben extrahieren. Insbesondere erleichtert der Elastic Student das gleichzeitige Vortraining mehrerer Modelle unterschiedlicher Größe, das auch als zusätzliches Ensemble von Modellen verschiedener Größe fungiert, um das Repräsentationslernen zu verbessern. Umfangreiche Experimente (einschließlich k-Nearest-Neighbors, linearer Erkennungsauswertung und Auswertung mehrerer nachgelagerter Aufgaben) demonstrieren die Wirksamkeit und Vorteile unseres POA. Es erreicht modernste Leistung durch die Verwendung von ViT-, Swin Transformer- und ResNet-Backbones und generiert in einer einzigen Vortrainingssitzung etwa hundert Modelle unterschiedlicher Größe.