HyperAIHyperAI
vor 2 Monaten

Lernen, mehrklassige Aufmerksamkeitsbereiche für die Mehrfachetikettierung von Bildern zu entdecken

Gao, Bin-Bin ; Zhou, Hong-Yu
Lernen, mehrklassige Aufmerksamkeitsbereiche für die Mehrfachetikettierung von Bildern zu entdecken
Abstract

Die Mehrfachkategorien-Erkennung in Bildern ist im Vergleich zur Einzelkategorie-Klassifikation eine praktische und herausfordernde Aufgabe. Vorherige Arbeiten könnten aufgrund einer großen Anzahl von Objektvorschlägen oder komplexen Modulen zur Generierung von Aufmerksamkeitsregionen suboptimal sein. In dieser Arbeit schlagen wir ein einfaches, aber effizientes Zwei-Ströme-Framework vor, um Mehrkategorien-Objekte von der globalen Bildaussicht bis hin zu lokalen Regionen zu erkennen, ähnlich wie Menschen Objekte wahrnehmen. Um die Lücke zwischen den globalen und lokalen Strömen zu überbrücken, schlagen wir ein Modul für mehrklassige Aufmerksamkeitsregionen (multi-class attentional region module) vor, das darauf abzielt, die Anzahl der Aufmerksamkeitsregionen so gering wie möglich zu halten und gleichzeitig die Vielfalt dieser Regionen so hoch wie möglich zu gewährleisten. Unsere Methode kann Mehrklassen-Objekte effizient und effektiv erkennen, mit einem erschwinglichen Rechenaufwand und einem parametersfreien Modul zur Regionserkennung. Anhand dreier Benchmarks für die Mehrfachkategorie-Klassifikation von Bildern erzielen wir neue Standesbestimmungen (state-of-the-art results), indem wir nur Semantik des Bildes nutzen, ohne auf Labelabhängigkeiten zurückzugreifen. Darüber hinaus wird die Effektivität der vorgeschlagenen Methode unter verschiedenen Faktoren wie Global-Pooling-Strategie, Eingabegröße und Netzarchitektur ausführlich demonstriert. Der Quellcode ist unter~\url{https://github.com/gaobb/MCAR} verfügbar.

Lernen, mehrklassige Aufmerksamkeitsbereiche für die Mehrfachetikettierung von Bildern zu entdecken | Neueste Forschungsarbeiten | HyperAI