HyperAIHyperAI
vor 2 Monaten

Mehrlabelbilderkennung mit Graphkonvolutionnetzen

Chen, Zhao-Min ; Wei, Xiu-Shen ; Wang, Peng ; Guo, Yanwen
Mehrlabelbilderkennung mit Graphkonvolutionnetzen
Abstract

Die Aufgabe der Mehrfachbeschriftung von Bildern besteht darin, eine Menge von Objektetiketten vorherzusagen, die in einem Bild vorhanden sind. Da Objekte normalerweise in einem Bild gemeinsam auftreten, ist es wünschenswert, die Abhängigkeiten zwischen den Etiketten zu modellieren, um die Erkennungsleistung zu verbessern. Um diese wichtigen Abhängigkeiten aufzufangen und zu erforschen, schlagen wir ein Mehrfachbeschriftungsmodell basierend auf Graph Convolutional Networks (GCN) vor. Das Modell erstellt einen gerichteten Graphen über die Objektetiketten, bei dem jeder Knoten (Etikett) durch Wort-Einbettungen eines Etiketts dargestellt wird, und das GCN gelernt wird, diesen Etikettengraphen in eine Menge von interdependenen Objektklassifikatoren abzubilden. Diese Klassifikatoren werden auf die durch ein weiteres Unter-Netz extrahierten BildDeskriptoren angewendet, was es ermöglicht, das gesamte Netzwerk end-to-end trainierbar zu machen. Darüber hinaus schlagen wir ein neues Neugewichtungsschema vor, um eine effektive Etikett-Korrelationsmatrix zu erstellen, die die Informationsverbreitung zwischen den Knoten im GCN leitet. Experimente mit zwei Datensätzen für Mehrfachbeschriftung von Bildern zeigen, dass unser Ansatz offensichtlich andere bestehende state-of-the-art-Methoden übertrifft. Zudem enthüllen Visualisierungsanalysen, dass die durch unser Modell gelernten Klassifikatoren eine bedeutsame semantische Topologie beibehalten.