Instanzsegmentierung durch gemeinsame Optimierung von Ortskodierungen und Clustering-Bandbreite

Der aktuelle Stand der Technik bei der Instanzsegmentierung ist für Echtzeit-Anwendungen wie autonomes Fahren, die schnelle Ausführungszeiten bei hoher Genauigkeit erfordern, nicht geeignet. Obwohl die derzeit vorherrschenden vorschlagsbasierten Methoden eine hohe Genauigkeit aufweisen, sind sie langsam und generieren Masken in einer festen und niedrigen Auflösung. Vorschlagsfreie Methoden können hingegen Masken in hoher Auflösung generieren und sind oft schneller, erreichen aber nicht dieselbe Genauigkeit wie die vorschlagsbasierten Methoden. In dieser Arbeit schlagen wir eine neue Clustering-Verlustfunktion für vorschlagsfreie Instanzsegmentierung vor. Die Verlustfunktion zieht die räumlichen Einbettungen von Pixeln, die zur gleichen Instanz gehören, zusammen und lernt gleichzeitig eine instanzspezifische Clustering-Bandbreite, um den Durchschnitt der Überschneidungen (Intersection-over-Union) des resultierenden Instanzmaskens zu maximieren. Wenn diese mit einer schnellen Architektur kombiniert wird, kann das Netzwerk Instanzsegmentierung in Echtzeit durchführen, während es eine hohe Genauigkeit beibehält. Wir evaluieren unsere Methode am anspruchsvollen Cityscapes-Benchmark und erzielen Spitzenwerte (5% Verbesserung im Vergleich zu Mask R-CNN) bei mehr als 10 fps auf 2MP-Bildern. Der Quellcode wird unter https://github.com/davyneven/SpatialEmbeddings zur Verfügung gestellt.