vor einem Monat

Latente Zonennetzwerk: Ein einheitliches Prinzip für generatives Modellieren, Repräsentationslernen und Klassifikation

Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin

Details der Forschungsarbeit anzeigen View Code

Latente Zonennetzwerk: Ein einheitliches Prinzip für generatives Modellieren, Repräsentationslernen und Klassifikation

Abstract

Generatives Modellieren, Repräsentationslernen und Klassifikation sind drei zentrale Probleme im maschinellen Lernen (ML), doch ihre derzeitigen Stand der Technik (SoTA) Lösungen bleiben weitgehend getrennt. In diesem Paper fragen wir: Kann ein einheitliches Prinzip alle drei Aufgaben adressieren? Eine solche Vereinheitlichung könnte ML-Pipelines vereinfachen und eine stärkere Synergie zwischen den Aufgaben fördern. Wir stellen den Latent Zoning Network (LZN) als einen Schritt in diese Richtung vor. Im Kern schafft der LZN einen gemeinsamen, gaußförmigen latenten Raum, der Informationen über alle Aufgaben hinweg kodiert. Jede Datentypen (z. B. Bilder, Text, Labels) wird mit einem Encoder ausgestattet, der Proben in disjunkte latente Zonen abbildet, sowie mit einem Decoder, der latente Darstellungen wieder in Daten zurücktransformiert. ML-Aufgaben werden als Kompositionen dieser Encoder und Decoder formuliert: So wird beispielsweise die bildbedingte Generierung unter Verwendung eines Label-Encoders und eines Bild-Decoders realisiert; die Bildrepräsentation erfolgt mittels eines Bild-Encoders; die Klassifikation mittels eines Bild-Encoders und eines Label-Decoders. Wir demonstrieren das Potenzial des LZN anhand dreier zunehmend komplexer Szenarien: (1) Der LZN kann bestehende Modelle (Bildgenerierung) verbessern: In Kombination mit dem aktuellen SoTA-Modell Rectified Flow verbessert der LZN die FID auf CIFAR10 von 2,76 auf 2,59 – ohne dabei die Trainingsziele zu verändern. (2) Der LZN kann Aufgaben unabhängig lösen (Repräsentationslernen): Der LZN ermöglicht das unsupervised Repräsentationslernen ohne Hilfsverlustfunktionen und erreicht auf der nachfolgenden linearen Klassifikation auf ImageNet eine Leistung, die die bahnbrechenden Methoden MoCo und SimCLR um 9,3 % bzw. 0,2 % übertrifft. (3) Der LZN kann mehrere Aufgaben gleichzeitig lösen (gemeinsame Generierung und Klassifikation): Durch die Verwendung von Bild- und Label-Encodern/Decodern führt der LZN beide Aufgaben von Natur aus gemeinsam aus, wodurch die FID verbessert und die aktuell beste Klassifikationsgenauigkeit auf CIFAR10 erreicht wird. Der Quellcode und die trainierten Modelle sind unter https://github.com/microsoft/latent-zoning-networks verfügbar. Die Projekt-Website befindet sich unter https://zinanlin.me/blogs/latent_zoning_networks.html.