Adversariales Komplementäres Lernen für schwach überwachte Objektlokalisation

In dieser Arbeit schlagen wir das Adversarial Complementary Learning (ACoL) vor, um integralen Objekten von semantischem Interesse unter schwacher Überwachung automatisch eine Position zuzuweisen. Zunächst beweisen wir mathematisch, dass Klassen-Localisierungskarten direkt durch die Auswahl der klassenspezifischen Feature Maps der letzten Faltungsschicht erhalten werden können, was einen einfachen Weg zur Identifikation von Objektregionen ebnen. Anschließend präsentieren wir eine einfache Netzwerkarchitektur, die zwei parallele Klassifikatoren für die Objektlokalisation enthält. Insbesondere nutzen wir einen Klassifikationszweig, um während des Vorwärtsdurchgangs einige diskriminative Objektregionen dynamisch zu lokalisieren. Obwohl dieser Klassifikator in der Regel auf spärliche Teile der Zielobjekte reagiert, kann er den gegenseitigen Klassifikator dazu anregen, neue und ergänzende Objektregionen zu entdecken, indem er die gefundenen Regionen aus den Feature Maps entfernt. Durch dieses adversarische Lernen werden die beiden parallelen Klassifikatoren gezwungen, ergänzende Objektregionen für die Klassifizierung zu nutzen und können letztlich eine vollständige Objektlokalisation zusammen erzeugen. Die Vorteile von ACoL sind hauptsächlich zweifach: 1) es kann in einem end-to-end-Prozess trainiert werden; 2) das dynamische Entfernen ermöglicht dem gegenseitigen Klassifikator, ergänzende Objektregionen effektiver zu entdecken. Wir zeigen die Überlegenheit unseres ACoL-Ansatzes in einer Vielzahl von Experimenten. Insbesondere beträgt der Top-1 Lokalisierungsfehler auf dem ILSVRC-Datensatz 45,14 %, was den neuen Stand der Technik darstellt.