Standardisierte Max-Logits: Ein einfacher aber effektiver Ansatz zur Identifizierung unerwarteter Verkehrsbehinderungen bei der Segmentierung von städtischen Szenen

Die Erkennung unerwarteter Objekte auf Straßen in der semantischen Segmentierung (z. B. Hunde auf Straßen) ist entscheidend für sicherheitskritische Anwendungen. Bisherige Ansätze nutzen Bilder unerwarteter Objekte aus externen Datensätzen oder erfordern zusätzliche Trainingsprozesse (z. B. Neutrainieren von Segmentierungsnetzwerken oder Trainieren eines zusätzlichen Netzwerks), was erheblichen Aufwand oder längere Inferenzzeiten nach sich zieht. Ein möglicher Alternativansatz besteht darin, die Vorhersage-Scores eines vortrainierten Netzwerks, beispielsweise die Max-Logits (d. h. die maximalen Werte über alle Klassen vor der letzten Softmax-Schicht), zur Erkennung solcher Objekte zu nutzen. Allerdings weisen die Verteilungen der Max-Logits für jede vorhergesagte Klasse erhebliche Unterschiede auf, was die Leistung bei der Erkennung unerwarteter Objekte in städtischen Szenen beeinträchtigt. Um dieses Problem zu lösen, schlagen wir einen einfachen, jedoch wirksamen Ansatz vor, der die Max-Logits standardisiert, um die unterschiedlichen Verteilungen auszurichten und die relativen Bedeutungen der Max-Logits innerhalb jeder vorhergesagten Klasse korrekt widerzuspiegeln. Zudem berücksichtigen wir lokale Regionen aus zwei Perspektiven, basierend auf der Intuition, dass benachbarte Pixel ähnliche semantische Informationen aufweisen. Im Gegensatz zu früheren Ansätzen nutzt unsere Methode weder externe Datensätze noch erfordert sie zusätzliche Trainingsphasen, was unsere Methode weitgehend anwendbar auf bereits vortrainierte Segmentierungsmodelle macht. Dieser direkte Ansatz erreicht eine neue State-of-the-Art-Leistung auf dem öffentlich verfügbaren Fishyscapes Lost & Found Leaderboard mit deutlichem Abstand. Unser Code ist öffentlich unter folgendem Link verfügbar: \href{https://github.com/shjung13/Standardized-max-logits}{link}.