Intra-Batch-Supervision für die Panoptic Segmentation auf hochauflösenden Bildern

Unified Panoptic-Segmentation-Verfahren erreichen derzeit state-of-the-art-Ergebnisse auf mehreren Datensätzen. Um diese Leistungen auch auf hochauflösenden Datensätzen zu erzielen, setzen diese Methoden üblicherweise eine Crop-basierte Trainingsstrategie ein. In dieser Arbeit stellen wir fest, dass die Crop-basierte Trainingsmethode zwar generell vorteilhaft ist, jedoch auch einen schädlichen Nebeneffekt aufweist: Sie beschränkt die Fähigkeit einheitlicher Netzwerke, zwischen großen Objektinstanzen zu unterscheiden, was dazu führt, dass die Vorhersagen zwischen mehreren Instanzen verwechselt werden. Um dieses Problem zu beheben, schlagen wir Intra-Batch-Supervision (IBS) vor, eine Methode, die die Fähigkeit eines Netzwerks zur Unterscheidung von Instanzen durch zusätzliche Supervision mithilfe mehrerer Bilder aus derselben Batch verbessert. Wir zeigen, dass mit unserer IBS das Verwechslungsproblem erfolgreich angegangen wird und die Leistung einheitlicher Netzwerke konsistent gesteigert wird. Für die hochauflösenden Datensätze Cityscapes und Mapillary Vistas erreichen wir Verbesserungen von bis zu +2,5 im Panoptic Quality für die Thing-Klassen sowie deutlich größere Zuwächse von bis zu +5,8 sowohl in der Pixel-Accuracy als auch in der Pixel-Precision – Metriken, die wir als geeigneter erachten, um das Verwechslungsproblem präzise zu erfassen.