HyperAIHyperAI

Command Palette

Search for a command to run...

VOLO: Vision Outlooker für die visuelle Erkennung

Li Yuan Qibin Hou Zihang Jiang Jiashi Feng Shuicheng Yan

Zusammenfassung

Die visuelle Erkennung wurde jahrelang von konvolutionellen neuronalen Netzen (CNNs) dominiert. Obwohl in jüngster Zeit die verbreiteten Vision-Transformer (ViTs) großes Potenzial von auf Selbst-Attention basierenden Modellen bei der ImageNet-Klassifikation gezeigt haben, bleibt ihre Leistung ohne zusätzliche Trainingsdaten weiterhin hinter den neuesten State-of-the-Art-CNNs zurück. In dieser Arbeit versuchen wir, diese Leistungs-lücke zu schließen und zu demonstrieren, dass Attention-basierte Modelle tatsächlich CNNs überlegen sein können. Wir identifizieren ein zentrales Problem, das die Leistung von ViTs bei der ImageNet-Klassifikation einschränkt: ihre geringe Effizienz bei der Kodierung feinräumiger Merkmale in die Token-Repräsentationen. Um dieses Problem zu lösen, führen wir eine neue Outlook-Attention ein und präsentieren eine einfache und allgemeingültige Architektur, die Vision Outlooker (VOLO) genannt wird. Im Gegensatz zur Selbst-Attention, die sich auf die Modellierung globaler Abhängigkeiten auf grober Ebene konzentriert, kodiert die Outlook-Attention effizient feinräumigere Merkmale und Kontextinformationen in die Tokens – ein Aspekt, der sich als entscheidend für die Erkennungsleistung erweist, jedoch von der Selbst-Attention weitgehend übersehen wird. Experimente zeigen, dass unser VOLO eine Top-1-Accuracy von 87,1 % bei der ImageNet-1K-Klassifikation erreicht, wodurch es das erste Modell darstellt, das die Schwelle von 87 % auf diesem anspruchsvollen Benchmark ohne Verwendung zusätzlicher Trainingsdaten überschreitet. Darüber hinaus zeigt das vortrainierte VOLO eine hervorragende Übertragbarkeit auf nachgeschaltete Aufgaben wie semantische Segmentierung: Wir erreichen 84,3 % mIoU auf dem Cityscapes-Validierungssatz und 54,3 % auf dem ADE20K-Validierungssatz. Der Quellcode ist unter \url{https://github.com/sail-sg/volo} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp