Lernen Sie voneinander, um besser zu klassifizieren: Cross-layer Mutual Attention Learning für feinkörnige visuelle Klassifikation
Feinabgestufte visuelle Klassifikation (Fine-grained Visual Classification, FGVC) ist von großem Wert, stellt jedoch auch erhebliche Herausforderungen dar. Die Schwierigkeit der FGVC resultiert hauptsächlich aus der inhärenten Ähnlichkeit zwischen Klassen, der innerhalb-Klassen-Variabilität sowie der begrenzten Menge an Trainingsdaten. Zudem haben Forscher im Zuge der zunehmenden Verbreitung tiefer konvolutioneller neuronalen Netze (Deep Convolutional Neural Networks, CNNs) sich vorwiegend auf tiefes, abstraktes semantisches Wissen gestützt, während flache, detaillierte Informationen vernachlässigt wurden. In dieser Arbeit wird ein Cross-layer Mutual Attention Learning Network (CMAL-Net) vorgeschlagen, um diese Probleme zu bewältigen. Konkret betrachtet diese Arbeit die flachen bis tiefen Schichten von CNNs als „Experten“, die jeweils über unterschiedliche Perspektiven verfügen. Jeder Experte liefert eine Klassifikationsvorhersage sowie einen Aufmerksamkeitsbereich, der die entdeckten Hinweise anzeigt. Die Aufmerksamkeitsbereiche fungieren als Informationsträger zwischen den Experten und bringen drei Vorteile: (ⅰ) die Modellkonzentration auf diskriminative Regionen; (ⅱ) die Bereitstellung zusätzlicher Trainingsdaten; (ⅲ) die Möglichkeit für die Experten, voneinander zu lernen, um die Gesamtleistung zu verbessern. Das CMAL-Net erreicht die bisher beste Leistung auf drei anspruchsvollen Datensätzen: FGVC-Aircraft, Stanford Cars und Food-11.