Kontext-semantische Qualitätsbewusstsein-Netzwerk für feingranulare visuelle Kategorisierung

Die Erforschung und Ausbeutung feiner, aber charakteristischer Merkmale zwischen Unter-Kategorien mit ähnlichen Erscheinungen ist entscheidend für die feingranulare visuelle Kategorisierung (FGVC). Allerdings wurde bisher weniger Aufwand darauf verwendet, die Qualität der extrahierten visuellen Repräsentationen zu bewerten. Intuitiv könnte das Netzwerk Schwierigkeiten haben, diskriminierende Merkmale aus low-quality-Stichproben zu erfassen, was zu einem erheblichen Rückgang der FGVC-Leistung führt. Um diese Herausforderung anzugehen, schlagen wir ein schwach überwachtes Kontext-Semantik-Qualitätsbewusstes Netzwerk (CSQA-Net) für FGVC vor. In diesem Netzwerk entwickeln wir ein neuartiges Mehrteil- und Mehrskalen-Cross-Attention-Modul (MPMSCA), um die räumliche kontextuelle Beziehung zwischen reichhaltigen Teildeskriptoren und globaler Semantik zu modellieren, wodurch innerhalb des Objekts mehr diskriminierende Details erfasst werden können. Bevor die Daten dem MPMSCA-Modul zugeführt werden, wird ein Teile-Navigator entwickelt, um Skalierungsverwirrungen zu beheben und lokale charakteristische Bereiche präzise zu identifizieren. Darüber hinaus schlagen wir ein generisches Mehrstufiges semantisches Qualitätsbewertungsmodul (MLSQE) vor, um schrittweise die hierarchischen Semantiken auf verschiedenen Ebenen des Backbone-Netzwerks zu überwachen und zu verbessern. Schließlich werden kontextsensible Merkmale aus dem MPMSCA und semantisch verbesserte Merkmale aus dem MLSQE den entsprechenden Qualitätsprüf-Klassifikatoren zugeführt, um ihre Qualität in Echtzeit zu bewerten und somit die Diskriminierbarkeit der Merkmalsrepräsentationen zu steigern. Umfassende Experimente an vier beliebten und hochwettbewerbsfähigen FGVC-Datensätzen zeigen die Überlegenheit des vorgeschlagenen CSQA-Net im Vergleich zu den besten bisher bekannten Methoden.