EnGraf-Net: Mehrfach-Granularitäts-Zweig-Netzwerk mit fein-korrekter Verzweigungsgranularität für Klassifizierungsaufgaben

Feinabgestufte Klassifikationsmodelle können gezielt auf die relevanten Details fokussieren, die zur Unterscheidung von äußerst ähnlichen Klassen nützlich sind, insbesondere dann, wenn die innerhalb-Klasse-Variabilität hoch und die zwischen-Klasse-Variabilität gering ist. Die meisten dieser Modelle nutzen Teilannotierungen in Form von Bounding Boxes, Lokalisationsinformationen oder textuellen Attributen, um die Klassifikationsleistung zu verbessern; andere setzen auf anspruchsvolle Techniken, um automatisch Aufmerksamkeitskarten zu extrahieren. Wir gehen davon aus, dass herkömmliche teilspezifische Ansätze, insbesondere solche, die automatisches Ausschneiden (cropping) verwenden, unter einer unzureichenden Repräsentation lokaler Merkmale leiden, die entscheidend für die Unterscheidung ähnlicher Objekte sind. Während die feinabgestufte Klassifikation darauf abzielt, das Blatt eines Graphen zu erkennen, versuchen Menschen, ein Objekt zu erkennen, indem sie zusätzlich semantische Zusammenhänge herstellen. In diesem Artikel nutzen wir semantische Assoziationen, strukturiert als Hierarchie (Taxonomie), als überwachende Signale und integrieren sie in ein end-to-end tiefes neuronales Netzwerkmodell, das als EnGraf-Net bezeichnet wird. Umfangreiche Experimente an drei bekannten Datensätzen – CIFAR-100, CUB-200-2011 und FGVC-Aircraft – belegen die Überlegenheit von EnGraf-Net gegenüber vielen etablierten feinabgestuften Modellen und zeigen, dass es mit den neuesten führenden Ansätzen konkurrieren kann, ohne jegliche Ausschneidetechniken oder manuelle Annotationen zu verwenden.