SpotNet: Self-Attention Multi-Task Network für Objekterkennung

Menschen sind sehr gut darin, ihre visuelle Aufmerksamkeit auf relevante Bereiche zu richten, wenn sie nach verschiedenen Objekttypen suchen. Beispielsweise schauen wir bei der Suche nach Autos auf die Straßen und nicht auf die Dächer von Gebäuden. Der Anlass dieser Arbeit besteht darin, ein Netzwerk mittels eines Multi-Task-Lernansatzes zu trainieren, um dieselbe Fähigkeit zu erlernen. Um visuelle Aufmerksamkeit zu trainieren, erzeugen wir im semi-supervised-Verfahren Segmentation-Labels für Vordergrund/Hintergrund, indem wir Hintergrundsubtraktion oder optischen Fluss verwenden. Mit diesen Labels trainieren wir ein Objektdetektionsmodell, das sowohl Vordergrund/Hintergrund-Segmentation-Karten als auch Bounding-Boxes erzeugt und dabei die meisten Modellparameter gemeinsam nutzt. Diese Segmentation-Karten verwenden wir innerhalb des Netzwerks als Selbst-Aufmerksamkeits-Mechanismus, um die Merkmalskarten zu gewichten, die zur Erzeugung der Bounding-Boxes dienen, wodurch das Signal nicht-relevanter Bereiche reduziert wird. Wir zeigen, dass diese Methode eine signifikante Verbesserung des mAP auf zwei Verkehrsüberwachungsdatensätzen erzielt und auf beiden Datensätzen, UA-DETRAC und UAVDT, Ergebnisse auf State-of-the-Art-Niveau erreicht.