HyperAIHyperAI
vor 17 Tagen

Universal Fine-grained Visual Categorization durch konzeptgeleitetes Lernen

{Gui-Song Xia, Wei Ji, Beichen Zhou, Qi Bi}
Abstract

Bestehende Methoden der feinkörnigen visuellen Kategorisierung (Fine-Grained Visual Categorization, FGVC) gehen davon aus, dass die feinkörnigen Semantiken sich in informativen Teilen eines Bildes befinden. Diese Annahme funktioniert gut bei günstigen Frontalansichten objektorientierter Bilder, stößt jedoch in vielen realen Szenarien auf erhebliche Herausforderungen, beispielsweise bei szeneriorientierten Bildern (z. B. Straßenansichten) oder unter ungünstigen Blickwinkeln (z. B. Objekt-Reidentifikation, Fernerkundung). In solchen Szenarien ist eine fehlerhafte oder übermäßige Aktivierung von Merkmalen wahrscheinlich, was die Auswahl relevanter Teile stören und die feinkörnige Repräsentation verschlechtern kann. In dieser Arbeit werden wir motiviert, einen universellen FGVC-Framework für reale Anwendungsszenarien zu entwerfen. Genauer gesagt schlagen wir ein konzeptgesteuertes Lernen (Concept Guided Learning, CGL) vor, das Konzepte einer bestimmten feinkörnigen Kategorie als Kombination von vererbten Konzepten aus ihrer grobkörnigen Oberkategorie und diskriminativen Konzepten aus ihrer eigenen Kategorie modelliert. Diese diskriminativen Konzepte werden zur Steuerung des Lernprozesses der feinkörnigen Repräsentation genutzt. Konkret werden drei zentrale Schritte implementiert: Konzept-Extraktion, Konzept-Fusion und Konzept-Beschränkung. Andererseits wird zur Brücke zwischen den FGVC-Datensätzen unter szeneriorientierten und ungünstigen Blickwinkel-Szenarien ein neuer Datensatz vorgestellt: der Fine-Grained Land-Cover Categorization Dataset (FGLCD) mit insgesamt 59.994 feinkörnigen Proben. Umfangreiche Experimente zeigen, dass das vorgeschlagene CGL: 1) eine konkurrenzfähige Leistung bei klassischen FGVC-Aufgaben erzielt; 2) den Stand der Technik bei feinkörnigen Luftbildszenen sowie szeneriorientierten Straßenansichten erreicht; 3) eine gute Generalisierungsfähigkeit bei der Objekt-Reidentifikation und der feinkörnigen Objektdetektion in Luftbildern aufweist. Der Datensatz und der Quellcode werden unter https://github.com/BiQiWHU/CGL verfügbar gemacht.

Universal Fine-grained Visual Categorization durch konzeptgeleitetes Lernen | Neueste Forschungsarbeiten | HyperAI