HyperAIHyperAI

Command Palette

Search for a command to run...

MetaFormer: Ein einheitlicher Meta-Framework für feinkörnige Erkennung

Qishuai Diao Yi Jiang Bin Wen Jia Sun Zehuan Yuan

Zusammenfassung

Feinabgestufte visuelle Klassifikation (Fine-Grained Visual Classification, FGVC) bezeichnet die Aufgabe, Objekte aus mehreren untergeordneten Kategorien einer Oberkategorie zu erkennen. Moderne state-of-the-art-Methoden entwerfen hierfür oft komplizierte Lernpipelines. Allerdings ist visuelle Information allein häufig nicht ausreichend, um feinabgestufte visuelle Kategorien präzise voneinander zu unterscheiden. Heute werden visuelle Daten oft zusammen mit Meta-Informationen (z. B. räumlich-zeitliche Priorisierungen, Attribute oder Textbeschreibungen) bereitgestellt. Dies führt uns zu der Frage: Ist es möglich, einen einheitlichen und einfachen Rahmenwerk zu nutzen, um verschiedene Arten von Meta-Informationen zur Unterstützung der feinabgestuften Klassifikation zu integrieren? Um diese Frage zu beantworten, erforschen wir ein einheitliches und leistungsstarkes Meta-Framework (MetaFormer) für die feinabgestufte visuelle Klassifikation. In der Praxis bietet MetaFormer eine einfache, jedoch effektive Herangehensweise zur gemeinsamen Lernung von visuellen Daten und diversen Meta-Informationen. Darüber hinaus stellt MetaFormer auch eine starke Basislösung für FGVC dar, die auf einfache, „bells and whistles“-freie Weise arbeitet. Umfangreiche Experimente zeigen, dass MetaFormer verschiedene Arten von Meta-Informationen effektiv nutzen kann, um die Leistung der feinabgestuften Erkennung zu verbessern. In einem fairen Vergleich übertrifft MetaFormer die aktuellen state-of-the-art-Methoden, die ausschließlich visuelle Informationen nutzen, auf den Datensätzen iNaturalist2017 und iNaturalist2018. Durch die Hinzufügung von Meta-Informationen erreicht MetaFormer eine Leistungssteigerung gegenüber den aktuellen state-of-the-art-Methoden um jeweils 5,9 % und 5,3 %. Zudem erzielt MetaFormer auf den Datensätzen CUB-200-2011 und NABirds eine Genauigkeit von 92,3 % und 92,7 %, was die aktuellen state-of-the-art-Methoden erheblich übertrifft. Der Quellcode und vortrainierte Modelle sind unter https://github.com/dqshuai/MetaFormer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp