vor 6 Monaten

Zusammenfassung

Diese Arbeit zeigt, dass maskierte Autoencoder (MAE) skalierbare selbstüberwachte Lernverfahren für die Computer Vision sind. Unser MAE-Ansatz ist einfach: Wir maskieren zufällige Patche des Eingabebildes und rekonstruieren die fehlenden Pixel. Er basiert auf zwei zentralen Entwürfen. Erstens entwickeln wir eine asymmetrische Encoder-Decoder-Architektur, bei der der Encoder nur auf der sichtbaren Teilmenge der Patche (ohne Maskentoken) operiert, während ein leichter Decoder die ursprüngliche Bildrepräsentation aus der latente Darstellung und den Maskentoken rekonstruiert. Zweitens stellen wir fest, dass das Maskieren eines hohen Anteils der Eingabebilder – beispielsweise 75 % – eine nichttriviale und sinnvolle selbstüberwachte Aufgabe ergibt. Die Kombination dieser beiden Designprinzipien ermöglicht es uns, große Modelle effizient und effektiv zu trainieren: Wir beschleunigen den Trainingsprozess um das Dreifache oder mehr und steigern gleichzeitig die Genauigkeit. Unser skalierbarer Ansatz erlaubt die Lernung hochkapazitiver Modelle mit guter Generalisierungsfähigkeit: So erreicht beispielsweise ein einfaches ViT-Huge-Modell die beste Genauigkeit (87,8 %) unter allen Methoden, die ausschließlich Daten aus ImageNet-1K nutzen. Die Transferleistung bei nachgeschalteten Aufgaben übertrifft die von überwachten Vortrainingsmethoden und zeigt vielversprechendes Skalierungsverhalten.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross Girshick

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross Girshick

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Maskierte Autoencoder sind skalierbare Lernsysteme für visuelle Daten | Paper | HyperAI

Command Palette

Maskierte Autoencoder sind skalierbare Lernsysteme für visuelle Daten

Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross Girshick

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Maskierte Autoencoder sind skalierbare Lernsysteme für visuelle Daten

Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross Girshick

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Maskierte Autoencoder sind skalierbare Lernsysteme für visuelle Daten

Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross Girshick

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters