HyperAIHyperAI

Command Palette

Search for a command to run...

Effiziente selbstüberwachte Vision Transformers für die Repräsentationslernen

Chunyuan Li Jianwei Yang Pengchuan Zhang Mei Gao Bin Xiao Xiyang Dai Lu Yuan Jianfeng Gao

Zusammenfassung

Diese Arbeit untersucht zwei Techniken zur Entwicklung effizienter selbstüberwachter Vision-Transformer (EsViT) für die visuelle Repräsentationslernung. Erstens zeigen wir in einer umfassenden empirischen Studie, dass mehrstufige Architekturen mit spärlichen Selbst-Attention-Operationen die Modellkomplexität erheblich reduzieren können, jedoch mit dem Preis eines verlorenen Vermögens, feinabgestimmte Korrespondenzen zwischen Bildregionen zu erfassen. Zweitens schlagen wir eine neue Vortrainingsaufgabe namens Regionen-Übereinstimmung vor, die es dem Modell ermöglicht, feinabgestimmte Abhängigkeiten zwischen Regionen zu erfassen und dadurch die Qualität der gelernten visuellen Repräsentationen erheblich verbessert. Unsere Ergebnisse zeigen, dass die Kombination beider Techniken es EsViT ermöglicht, eine Top-1-Accuracy von 81,3 % bei der ImageNet-Lineare-Probe-Evaluation zu erreichen und damit vorherige Ansätze um eine Größenordnung höheren Durchsatz aufweist. Bei der Übertragung auf nachgeschaltete lineare Klassifikationsaufgaben übertrifft EsViT sein überwachtes Gegenstück auf 17 von 18 Datensätzen. Der Quellcode und die Modelle sind öffentlich zugänglich: https://github.com/microsoft/esvit


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Effiziente selbstüberwachte Vision Transformers für die Repräsentationslernen | Paper | HyperAI