HyperAIHyperAI
vor 11 Tagen

Effiziente selbstüberwachte Vision Transformers für die Repräsentationslernen

Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao
Effiziente selbstüberwachte Vision Transformers für die Repräsentationslernen
Abstract

Diese Arbeit untersucht zwei Techniken zur Entwicklung effizienter selbstüberwachter Vision-Transformer (EsViT) für die visuelle Repräsentationslernung. Erstens zeigen wir in einer umfassenden empirischen Studie, dass mehrstufige Architekturen mit spärlichen Selbst-Attention-Operationen die Modellkomplexität erheblich reduzieren können, jedoch mit dem Preis eines verlorenen Vermögens, feinabgestimmte Korrespondenzen zwischen Bildregionen zu erfassen. Zweitens schlagen wir eine neue Vortrainingsaufgabe namens Regionen-Übereinstimmung vor, die es dem Modell ermöglicht, feinabgestimmte Abhängigkeiten zwischen Regionen zu erfassen und dadurch die Qualität der gelernten visuellen Repräsentationen erheblich verbessert. Unsere Ergebnisse zeigen, dass die Kombination beider Techniken es EsViT ermöglicht, eine Top-1-Accuracy von 81,3 % bei der ImageNet-Lineare-Probe-Evaluation zu erreichen und damit vorherige Ansätze um eine Größenordnung höheren Durchsatz aufweist. Bei der Übertragung auf nachgeschaltete lineare Klassifikationsaufgaben übertrifft EsViT sein überwachtes Gegenstück auf 17 von 18 Datensätzen. Der Quellcode und die Modelle sind öffentlich zugänglich: https://github.com/microsoft/esvit

Effiziente selbstüberwachte Vision Transformers für die Repräsentationslernen | Neueste Forschungsarbeiten | HyperAI