A-Fast-RCNN: Erzeugung schwerer positiver Beispiele durch einen Gegner für die Objekterkennung

Wie lernen wir einen Objekterkennungsdetektor, der invariant gegenüber Verdeckungen und Deformationen ist? Unsere aktuelle Lösung besteht darin, eine datengesteuerte Strategie zu verwenden – große Datensätze zu sammeln, die Objektinstanzen unter verschiedenen Bedingungen enthalten. Die Hoffnung ist, dass der endgültige Klassifizierer diese Beispiele nutzen kann, um Invarianten zu lernen. Aber ist es wirklich möglich, alle Verdeckungen in einem Datensatz abzubilden? Wir argumentieren, dass Verdeckungen und Objektdeformationen wie Kategorien einem Long-Tail-Verlauf folgen. Einige Verdeckungen und Deformationen sind so selten, dass sie kaum vorkommen; dennoch möchten wir ein Modell lernen, das invariant gegenüber solchen Ereignissen ist. In diesem Artikel schlagen wir eine alternative Lösung vor. Wir schlagen vor, ein adversariales Netzwerk zu lernen, das Beispiele mit Verdeckungen und Deformationen generiert. Das Ziel des Adversars ist es, Beispiele zu generieren, die für den Objekterkennungsdetektor schwierig zu klassifizieren sind. In unserem Framework werden sowohl der ursprüngliche Detektor als auch der Adversar gemeinsam gelernt. Unsere experimentellen Ergebnisse zeigen einen Anstieg des mAP von 2,3 % im VOC07-Objekterkennungs-Wettbewerb und von 2,6 % im VOC2012-Objekterkennungs-Wettbewerb im Vergleich zum Fast-RCNN-Pipeline. Wir stellen außerdem den Code für diesen Artikel zur Verfügung.