vor 11 Tagen

BEiT: BERT-Vorstudium für Bild-Transformers

Hangbo Bao, Li Dong, Songhao Piao, Furu Wei

Abstract

Wir stellen ein selbstüberwachtes Vision-Repräsentationsmodell namens BEiT vor, abgeleitet von „Bidirectional Encoder representation from Image Transformers“. Anschließend an BERT, das im Bereich der natürlichen Sprachverarbeitung entwickelt wurde, schlagen wir eine maske-basierte Bildmodellierungsaufgabe zur Vortrainierung von Vision-Transformern vor. Konkret verfügt jedes Bild in unserem Vortrainingsprozess über zwei Darstellungsformen: Bildpatches (z. B. 16×16 Pixel) und visuelle Tokens (d. h. diskrete Tokens). Zunächst „tokenisieren“ wir das ursprüngliche Bild in visuelle Tokens. Anschließend maskieren wir zufällig einige Bildpatches und übergeben diese dem Backbone-Transformer. Das Vortrainingsziel besteht darin, die ursprünglichen visuellen Tokens basierend auf den beschädigten Bildpatches wiederherzustellen. Nach dem Vortrainieren von BEiT führen wir eine direkte Feinabstimmung der Modellparameter auf nachgeschalteten Aufgaben durch, indem wir task-spezifische Schichten auf den vortrainierten Encoder aufsetzen. Experimentelle Ergebnisse bei der Bildklassifikation und semantischer Segmentierung zeigen, dass unser Modell Ergebnisse erzielt, die mit bisherigen Vortrainingsmethoden konkurrieren. Beispielsweise erreicht die Base-Größe von BEiT eine Top-1-Accuracy von 83,2 % auf ImageNet-1K und übertrifft deutlich die Leistung von DeiT-Trainings „von Grund auf“ (81,8 %) unter denselben Voraussetzungen. Darüber hinaus erzielt die Large-Größe von BEiT eine Accuracy von 86,3 %, wobei lediglich ImageNet-1K verwendet wird – dies übertrifft sogar die Leistung von ViT-L mit überwachtem Vortrainieren auf ImageNet-22K (85,2 %). Der Quellcode und die vortrainierten Modelle sind unter https://aka.ms/beit verfügbar.