HyperAIHyperAI
vor 17 Tagen

VOLO: Vision Outlooker für die visuelle Erkennung

Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan
VOLO: Vision Outlooker für die visuelle Erkennung
Abstract

Die visuelle Erkennung wurde jahrelang von konvolutionellen neuronalen Netzen (CNNs) dominiert. Obwohl in jüngster Zeit die verbreiteten Vision-Transformer (ViTs) großes Potenzial von auf Selbst-Attention basierenden Modellen bei der ImageNet-Klassifikation gezeigt haben, bleibt ihre Leistung ohne zusätzliche Trainingsdaten weiterhin hinter den neuesten State-of-the-Art-CNNs zurück. In dieser Arbeit versuchen wir, diese Leistungs-lücke zu schließen und zu demonstrieren, dass Attention-basierte Modelle tatsächlich CNNs überlegen sein können. Wir identifizieren ein zentrales Problem, das die Leistung von ViTs bei der ImageNet-Klassifikation einschränkt: ihre geringe Effizienz bei der Kodierung feinräumiger Merkmale in die Token-Repräsentationen. Um dieses Problem zu lösen, führen wir eine neue Outlook-Attention ein und präsentieren eine einfache und allgemeingültige Architektur, die Vision Outlooker (VOLO) genannt wird. Im Gegensatz zur Selbst-Attention, die sich auf die Modellierung globaler Abhängigkeiten auf grober Ebene konzentriert, kodiert die Outlook-Attention effizient feinräumigere Merkmale und Kontextinformationen in die Tokens – ein Aspekt, der sich als entscheidend für die Erkennungsleistung erweist, jedoch von der Selbst-Attention weitgehend übersehen wird. Experimente zeigen, dass unser VOLO eine Top-1-Accuracy von 87,1 % bei der ImageNet-1K-Klassifikation erreicht, wodurch es das erste Modell darstellt, das die Schwelle von 87 % auf diesem anspruchsvollen Benchmark ohne Verwendung zusätzlicher Trainingsdaten überschreitet. Darüber hinaus zeigt das vortrainierte VOLO eine hervorragende Übertragbarkeit auf nachgeschaltete Aufgaben wie semantische Segmentierung: Wir erreichen 84,3 % mIoU auf dem Cityscapes-Validierungssatz und 54,3 % auf dem ADE20K-Validierungssatz. Der Quellcode ist unter \url{https://github.com/sail-sg/volo} verfügbar.

VOLO: Vision Outlooker für die visuelle Erkennung | Neueste Forschungsarbeiten | HyperAI