HyperAIHyperAI

Command Palette

Search for a command to run...

BEiT: BERT-Vorstudium für Bild-Transformers

Hangbo Bao Li Dong Songhao Piao Furu Wei

Zusammenfassung

Wir stellen ein selbstüberwachtes Vision-Repräsentationsmodell namens BEiT vor, abgeleitet von „Bidirectional Encoder representation from Image Transformers“. Anschließend an BERT, das im Bereich der natürlichen Sprachverarbeitung entwickelt wurde, schlagen wir eine maske-basierte Bildmodellierungsaufgabe zur Vortrainierung von Vision-Transformern vor. Konkret verfügt jedes Bild in unserem Vortrainingsprozess über zwei Darstellungsformen: Bildpatches (z. B. 16×16 Pixel) und visuelle Tokens (d. h. diskrete Tokens). Zunächst „tokenisieren“ wir das ursprüngliche Bild in visuelle Tokens. Anschließend maskieren wir zufällig einige Bildpatches und übergeben diese dem Backbone-Transformer. Das Vortrainingsziel besteht darin, die ursprünglichen visuellen Tokens basierend auf den beschädigten Bildpatches wiederherzustellen. Nach dem Vortrainieren von BEiT führen wir eine direkte Feinabstimmung der Modellparameter auf nachgeschalteten Aufgaben durch, indem wir task-spezifische Schichten auf den vortrainierten Encoder aufsetzen. Experimentelle Ergebnisse bei der Bildklassifikation und semantischer Segmentierung zeigen, dass unser Modell Ergebnisse erzielt, die mit bisherigen Vortrainingsmethoden konkurrieren. Beispielsweise erreicht die Base-Größe von BEiT eine Top-1-Accuracy von 83,2 % auf ImageNet-1K und übertrifft deutlich die Leistung von DeiT-Trainings „von Grund auf“ (81,8 %) unter denselben Voraussetzungen. Darüber hinaus erzielt die Large-Größe von BEiT eine Accuracy von 86,3 %, wobei lediglich ImageNet-1K verwendet wird – dies übertrifft sogar die Leistung von ViT-L mit überwachtem Vortrainieren auf ImageNet-22K (85,2 %). Der Quellcode und die vortrainierten Modelle sind unter https://aka.ms/beit verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BEiT: BERT-Vorstudium für Bild-Transformers | Paper | HyperAI