HyperAIHyperAI
vor 17 Tagen

MSeg: Ein zusammengesetzter Datensatz für multi-domain semantische Segmentierung

John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun
MSeg: Ein zusammengesetzter Datensatz für multi-domain semantische Segmentierung
Abstract

Wir präsentieren MSeg, einen zusammengesetzten Datensatz, der semantische Segmentierungsdatasets aus verschiedenen Domänen vereint. Eine naive Kombination der einzelnen Datensätze führt aufgrund inkonsistenter Taxonomien und Annotationssprachen zu schlechten Leistungen. Wir harmonisieren die Taxonomien und bringen die pixelgenauen Annotationen durch die Umarbeitung von mehr als 220.000 Objektmasken in über 80.000 Bildern in Übereinstimmung, was mehr als 1,34 Jahre kollektiver Annotatorarbeit erforderte. Der resultierende zusammengesetzte Datensatz ermöglicht das Training eines einzigen semantischen Segmentierungsmodells, das effektiv über Domänen hinweg funktioniert und auf Datensätze generalisiert, die während des Trainings nicht gesehen wurden. Wir nutzen den Zero-Shot-Cross-Dataset-Transfer als Benchmark, um die Robustheit eines Modells systematisch zu bewerten, und zeigen, dass das Training auf MSeg im Vergleich zum Training auf einzelnen Datensätzen oder einer naiven Kombination ohne die vorgestellten Verbesserungen deutlich robustere Modelle erzeugt. Ein Modell, das auf MSeg trainiert wurde, erreicht die erste Platzierung auf der WildDash-v1-Rangliste für robuste semantische Segmentierung, ohne jemals WildDash-Daten während des Trainings gesehen zu haben. Wir evaluieren unsere Modelle im Rahmen der Robust Vision Challenge (RVC) 2020 als Extremfall der Generalisierung. Die MSeg-Trainingsdatensätze enthalten lediglich drei der sieben Datensätze der RVC; noch wichtiger ist, dass die Evaluationstaxonomie der RVC anders und detaillierter ist. Überraschenderweise erzielt unser Modell eine konkurrenzfähige Leistung und belegt den zweiten Platz. Um zu bewerten, wie nahe wir dem großen Ziel einer robusten, effizienten und vollständigen Szeneninterpretation sind, gehen wir über die semantische Segmentierung hinaus und trainieren zudem Instance-Segmentierungs- und Panoptic-Segmentierungsmodelle mit unserem Datensatz. Darüber hinaus bewerten wir verschiedene ingenieurtechnische Designentscheidungen und Metriken, darunter Auflösung und rechnerische Effizienz. Obwohl unsere Modelle diesem grandiosen Ziel noch weit entfernt sind, ist unsere umfassende Evaluation entscheidend für den Fortschritt. Wir teilen alle Modelle und den Quellcode mit der Gemeinschaft.