Aufmerksamkeitsgesteuertes faltendes binäres neuronales Baummodell für feinkörnige visuelle Kategorisierung

Feinabgestufte visuelle Kategorisierung (Fine-grained visual categorization, FGVC) ist eine wichtige, jedoch herausfordernde Aufgabe, bedingt durch hohe intra-klassische Varianzen und geringe inter-klassische Varianzen, die durch Verformungen, Verdeckung, Beleuchtungsbedingungen usw. verursacht werden. Um diese Probleme bei der schwach überwachten FGVC anzugehen, wird eine Aufmerksamkeits-Convolutional-Binary-Neural-Tree-Architektur vorgestellt. Konkret integrieren wir Faltungsoperationen entlang der Kanten der Baumstruktur und nutzen die Routing-Funktionen in jedem Knoten, um die Rechenpfade vom Wurzelknoten zu den Blattknoten innerhalb des Baums zu bestimmen. Die endgültige Entscheidung wird als Summe der Vorhersagen der Blattknoten berechnet. Die tiefen Faltungsoperationen lernen, die Merkmale von Objekten zu erfassen, während die Baumstruktur den hierarchischen Lernprozess von grob bis fein charakterisiert. Zusätzlich verwenden wir einen Aufmerksamkeits-Transformer-Modul, um das Netzwerk dazu zu zwingen, diskriminative Merkmale zu erfassen. Die negative Log-Likelihood-Verlustfunktion wird verwendet, um das gesamte Netzwerk end-to-end mittels SGD mit Rückpropagation zu trainieren. Mehrere Experimente an den Datensätzen CUB-200-2011, Stanford Cars und Aircraft zeigen, dass die vorgeschlagene Methode gegenüber den aktuellen State-of-the-Art-Verfahren gut abschneidet.