Diskriminatives regionenbasiertes Multi-Label Zero-Shot-Lernen

Das mehrklassige Zero-Shot-Lernen (ZSL) ist eine realistischere Variante desstandardmäßigen einheitsklassigen ZSL, da in einem natürlichen Bild mehrere Objektegleichzeitig vorkommen können. Die Anwesenheit von mehreren Objekten kompliziert jedoch dieSchlussfolgerung und erfordert regionale Verarbeitung visueller Merkmale, um derenkontextuelle Hinweise zu bewahren. Wir bemerken, dass die beste existierende Methode für das mehrklassige ZSL einen gemeinsamen Ansatz zur Berücksichtigung regionaler Merkmale verfolgt, indem sie für alle Klassen eine gemeinsame Aufmerksamkeitskarte verwendet. Solche gemeinsamen Karten führen zu einer verschwommenen Aufmerksamkeit, die bei einer großen Anzahl von Klassen nicht diskriminativ auf relevante Positionen fokussiert. Darüber hinaus führt die Abbildung räumlich zusammengefasster visueller Merkmale auf die Klassensemantik zu intra-klasse-Merkmalverflechtungen, was die Klassifikation erschwert. In diesem Beitrag schlagen wir einen alternativen Ansatz vor, der sich auf regionsbasierte diskriminative Merkmalsbewahrung im mehrklassigen Zero-Shot-Lernen konzentriert. Unser Ansatz behält die räumliche Auflösung bei, um regionale Charakteristika zu erhalten, und nutzt ein zweistufiges Aufmerksamkeitsmodul (BiAM), um die Merkmale durch Einbeziehung sowohl regionaler als auch szenischer Kontextinformationen zu bereichern. Die bereichsbasierten bereicherten Merkmale werden dann auf die Klassensemantik abgebildet und nur ihre Klassenvorhersagen werden räumlich zusammengefasst, um bildbasierte Vorhersagen zu erhalten, wodurch die Mehrklassen-Merkmale entflochten bleiben. Unser Ansatz legt einen neuen Stand der Technik auf zwei großen Mehrklassen-Zero-Shot-Benchmarks fest: NUS-WIDE und Open Images. Auf NUS-WIDE erreicht unser Ansatz einen absoluten Gewinn von 6,9 % mAP für ZSL im Vergleich zu den besten bisher veröffentlichten Ergebnissen.