MetaFormer: Ein einheitlicher Meta-Framework für feinkörnige Erkennung

Feinabgestufte visuelle Klassifikation (Fine-Grained Visual Classification, FGVC) bezeichnet die Aufgabe, Objekte aus mehreren untergeordneten Kategorien einer Oberkategorie zu erkennen. Moderne state-of-the-art-Methoden entwerfen hierfür oft komplizierte Lernpipelines. Allerdings ist visuelle Information allein häufig nicht ausreichend, um feinabgestufte visuelle Kategorien präzise voneinander zu unterscheiden. Heute werden visuelle Daten oft zusammen mit Meta-Informationen (z. B. räumlich-zeitliche Priorisierungen, Attribute oder Textbeschreibungen) bereitgestellt. Dies führt uns zu der Frage: Ist es möglich, einen einheitlichen und einfachen Rahmenwerk zu nutzen, um verschiedene Arten von Meta-Informationen zur Unterstützung der feinabgestuften Klassifikation zu integrieren? Um diese Frage zu beantworten, erforschen wir ein einheitliches und leistungsstarkes Meta-Framework (MetaFormer) für die feinabgestufte visuelle Klassifikation. In der Praxis bietet MetaFormer eine einfache, jedoch effektive Herangehensweise zur gemeinsamen Lernung von visuellen Daten und diversen Meta-Informationen. Darüber hinaus stellt MetaFormer auch eine starke Basislösung für FGVC dar, die auf einfache, „bells and whistles“-freie Weise arbeitet. Umfangreiche Experimente zeigen, dass MetaFormer verschiedene Arten von Meta-Informationen effektiv nutzen kann, um die Leistung der feinabgestuften Erkennung zu verbessern. In einem fairen Vergleich übertrifft MetaFormer die aktuellen state-of-the-art-Methoden, die ausschließlich visuelle Informationen nutzen, auf den Datensätzen iNaturalist2017 und iNaturalist2018. Durch die Hinzufügung von Meta-Informationen erreicht MetaFormer eine Leistungssteigerung gegenüber den aktuellen state-of-the-art-Methoden um jeweils 5,9 % und 5,3 %. Zudem erzielt MetaFormer auf den Datensätzen CUB-200-2011 und NABirds eine Genauigkeit von 92,3 % und 92,7 %, was die aktuellen state-of-the-art-Methoden erheblich übertrifft. Der Quellcode und vortrainierte Modelle sind unter https://github.com/dqshuai/MetaFormer verfügbar.