Lernen von räumlicher Regularisierung mit bildbasierten Überwachungen für die mehrklassige Bildklassifizierung

Die mehrfache Bildklassifizierung ist eine grundlegende, aber herausfordernde Aufgabe im Bereich der Computer Vision. In den letzten Jahren wurde durch die Ausnutzung semantischer Beziehungen zwischen den Klassenlabels erheblicher Fortschritt erzielt. Allerdings sind herkömmliche Ansätze nicht in der Lage, die zugrundeliegenden räumlichen Beziehungen zwischen den Labels in mehrfach klassifizierten Bildern zu modellieren, da räumliche Annotationen der Labels in der Regel nicht bereitgestellt werden. In dieser Arbeit schlagen wir ein vereinheitlichtes tiefes neuronales Netzwerk vor, das sowohl semantische als auch räumliche Beziehungen zwischen den Labels unter Verwendung nur von bildbasierten Supervisionsdaten ausnutzt. Für ein mehrfach klassifiziertes Bild generiert unser vorgeschlagenes Spatial Regularization Network (SRN) Aufmerksamkeitskarten für alle Labels und erfängt die zugrundeliegenden Beziehungen zwischen ihnen durch lernfähige Faltungen. Durch die Aggregation der regularisierten Klassifikationsergebnisse mit den ursprünglichen Ergebnissen eines ResNet-101-Netzwerks kann die Klassifikationsleistung kontinuierlich verbessert werden. Das gesamte tiefe neuronale Netzwerk wird end-to-end nur mit bildbasierten Annotationen trainiert und erfordert daher keine zusätzlichen Anstrengungen bei der Annotation von Bildern. Umfangreiche Evaluierungen auf drei öffentlichen Datensätzen mit verschiedenen Labeltypen zeigen, dass unser Ansatz signifikant besser als der Stand der Technik ist und eine starke Generalisierungsfähigkeit besitzt. Die Analyse des gelernten SRN-Modells zeigt, dass es effektiv sowohl semantische als auch räumliche Beziehungen zwischen den Labels erfassen kann, um die Klassifikationsleistung zu verbessern.