Command Palette
Search for a command to run...
Maskierte Autoencoder sind skalierbare Lernsysteme für visuelle Daten
Maskierte Autoencoder sind skalierbare Lernsysteme für visuelle Daten
Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross Girshick
Zusammenfassung
Diese Arbeit zeigt, dass maskierte Autoencoder (MAE) skalierbare selbstüberwachte Lernverfahren für die Computer Vision sind. Unser MAE-Ansatz ist einfach: Wir maskieren zufällige Patche des Eingabebildes und rekonstruieren die fehlenden Pixel. Er basiert auf zwei zentralen Entwürfen. Erstens entwickeln wir eine asymmetrische Encoder-Decoder-Architektur, bei der der Encoder nur auf der sichtbaren Teilmenge der Patche (ohne Maskentoken) operiert, während ein leichter Decoder die ursprüngliche Bildrepräsentation aus der latente Darstellung und den Maskentoken rekonstruiert. Zweitens stellen wir fest, dass das Maskieren eines hohen Anteils der Eingabebilder – beispielsweise 75 % – eine nichttriviale und sinnvolle selbstüberwachte Aufgabe ergibt. Die Kombination dieser beiden Designprinzipien ermöglicht es uns, große Modelle effizient und effektiv zu trainieren: Wir beschleunigen den Trainingsprozess um das Dreifache oder mehr und steigern gleichzeitig die Genauigkeit. Unser skalierbarer Ansatz erlaubt die Lernung hochkapazitiver Modelle mit guter Generalisierungsfähigkeit: So erreicht beispielsweise ein einfaches ViT-Huge-Modell die beste Genauigkeit (87,8 %) unter allen Methoden, die ausschließlich Daten aus ImageNet-1K nutzen. Die Transferleistung bei nachgeschalteten Aufgaben übertrifft die von überwachten Vortrainingsmethoden und zeigt vielversprechendes Skalierungsverhalten.