HyperAIHyperAI
vor 3 Monaten

Context-Autoencoder für selbstüberwachtes Darstellungslernen

Xiaokang Chen, Mingyu Ding, Xiaodi Wang, Ying Xin, Shentong Mo, Yunhao Wang, Shumin Han, Ping Luo, Gang Zeng, Jingdong Wang
Context-Autoencoder für selbstüberwachtes Darstellungslernen
Abstract

Wir stellen einen neuartigen Ansatz für maskierte Bildmodellierung (Masked Image Modeling, MIM), den Context Autoencoder (CAE), zur selbstüberwachten Darstellungsvortrainierung vor. Wir trainieren einen Encoder vorab, indem wir Vorhersagen im codierten Darstellungsräum durchführen. Die Vortrainierungsaufgaben umfassen zwei Komponenten: die Vorhersage maskierter Darstellungen – d. h. die Schätzung der Darstellungen für maskierte Patchs – sowie die Rekonstruktion maskierter Patchs. Das Netzwerk besitzt eine Architektur aus Encoder-Regressor-Decoder: Der Encoder nimmt die sichtbaren Patchs als Eingabe; der Regressor schätzt die Darstellungen der maskierten Patchs, die mit den aus dem Encoder berechneten Darstellungen übereinstimmen sollen, basierend auf den Darstellungen der sichtbaren Patchs sowie deren Positionen im Bild, sowohl sichtbarer als auch maskierter Patchs; der Decoder rekonstruiert die maskierten Patchs aus den vorhergesagten codierten Darstellungen. Die CAE-Architektur fördert die Trennung des Lernens des Encoders (d. h. der Darstellung) von der Erfüllung der jeweiligen Aufgaben – der Vorhersage maskierter Darstellungen und der Rekonstruktion maskierter Patchs – und empirisch zeigt sich, dass das Vorhersagen im codierten Darstellungsräum Vorteile für die Darstellungslernung bietet. Wir demonstrieren die Wirksamkeit unseres CAE anhand überlegener Transferleistung in nachgeschalteten Aufgaben: semantische Segmentierung, Objekterkennung, Instanzsegmentierung und Klassifikation. Der Quellcode wird unter https://github.com/Atten4Vis/CAE verfügbar sein.