Schwach überwachte feinkörnige Bildklassifikation mittels gaussischer Mischmodell-orientierter diskriminativer Lernmethodik

Bekannte schwach überwachte Methoden zur feinabgestuften Bilderkennung (WFGIR) wählen die diskriminativen Regionen üblicherweise direkt aus den hochleveligen Merkmalskarten aus. Wir stellen fest, dass die Stapelung lokaler Empfindlichkeitsfelder in der Architektur von Convolutional Neural Networks (CNN) zu einer Diffusion diskriminativer Regionen in den hochleveligen Merkmalskarten führt, was eine ungenaue Lokalisierung dieser Regionen verursacht. In diesem Artikel stellen wir ein end-to-end-Modell namens Discriminative Feature-oriented Gaussian Mixture Model (DF-GMM) vor, um das Problem der diskriminativen Regionen-Diffusion zu lösen und feinere, präzisere Details zu identifizieren. Konkret besteht DF-GMM aus zwei Komponenten: 1) einem Mechanismus zur niedrigen Rangdarstellung (Low-Rank Representation Mechanism, LRM), der mithilfe eines Gaußschen Mischmodells (GMM) in hochleveligen semantischen Merkmalskarten eine Menge niedrigrangiger diskriminativer Basen lernt, um die Diskriminativkraft der Merkmalsdarstellung zu verbessern; 2) einem Mechanismus zur Neustrukturierung der niedrigen Rangdarstellung (Low-Rank Representation Reorganization Mechanism, LR²M), der die räumlichen Informationen, die den niedrigrangigen diskriminativen Basen entsprechen, wiederherstellt, um die niedrigrangigen Merkmalskarten neu zu konstruieren. Dadurch wird das Problem der diskriminativen Regionen-Diffusion gemildert und die Lokalisierung diskriminativer Regionen präziser gestaltet. Umfassende Experimente bestätigen, dass DF-GMM unter gleichen Einstellungen die beste Leistung erzielt und sich gegenüber den derzeit besten Ansätzen in den Datensätzen CUB-Bird, Stanford-Cars und FGVC Aircraft als besonders wettbewerbsfähig erweist.