HyperAIHyperAI
vor 13 Tagen

Mehrschichtiges semantisches Repräsentationsnetzwerk für die Mehrlabel-Bildklassifikation

Xiwen Qu, Hao Che, Jun Huang, Linchuan Xu, Xiao Zheng
Mehrschichtiges semantisches Repräsentationsnetzwerk für die Mehrlabel-Bildklassifikation
Abstract

Die mehrfach-label-basierte Bildklassifikation (Multi-label Image Classification, MLIC) ist eine grundlegende und praktische Aufgabe, die darauf abzielt, einem Bild mehrere mögliche Labels zuzuweisen. In den letzten Jahren wurden zahlreiche Ansätze basierend auf tiefen konvolutionellen neuronalen Netzen (Deep Convolutional Neural Networks, CNN) vorgeschlagen, die Korrelationen zwischen Labels modellieren, um die Semantik der Labels zu erkennen und semantische Darstellungen von Bildern zu lernen. In dieser Arbeit wird diese Forschungsrichtung vorangetrieben, indem sowohl die Modellierung von Label-Korrelationen als auch die Lernung semantischer Darstellungen verbessert werden. Einerseits untersuchen wir neben der lokalen Semantik jedes einzelnen Labels zusätzlich die globale Semantik, die von mehreren Labels gemeinsam geteilt wird. Andererseits basieren bisherige Ansätze hauptsächlich auf der Lernung semantischer Darstellungen in der letzten konvolutionellen Schicht eines CNN. Es ist jedoch bekannt, dass die Bildrepräsentationen unterschiedlicher Schichten eines CNN verschiedene Ebenen oder Skalen von Merkmalen erfassen und unterschiedliche Unterscheidungsfähigkeiten besitzen. Wir schlagen daher vor, semantische Darstellungen auf mehreren konvolutionellen Schichten zu lernen. Dazu entwickeln wir ein mehrschichtiges Netzwerk zur semantischen Darstellung (Multi-layered Semantic Representation Network, MSRN), das sowohl lokale als auch globale Semantik der Labels durch Modellierung der Label-Korrelationen entdeckt und die Lernung semantischer Darstellungen auf mehreren Schichten mittels eines Aufmerksamkeitsmechanismus mit Hilfe der Label-Semantik leitet. Umfangreiche Experimente an vier Benchmark-Datensätzen – VOC 2007, COCO, NUS-WIDE und Apparel – zeigen, dass das vorgeschlagene MSRN gegenüber aktuellen state-of-the-art-Modellen konkurrenzfähige Leistung erzielt.