UniMatch V2: Die Grenzen der semi-supervisierten semantischen Segmentierung erweitern

Halbüberwachte semantische Segmentierung (SSS) strebt danach, reichhaltiges visuelles Wissen aus kostengünstigen, nicht annotierten Bildern zu lernen, um die Fähigkeit zur semantischen Segmentierung zu verbessern. Unter den kürzlich veröffentlichten Arbeiten hebt sich UniMatch durch eine erhebliche Verbesserung seiner Vorgänger hervor, indem es die Praxis der schwach-zu-starken Konsistenzregularisierung verstärkt. Nachfolgende Arbeiten folgen in der Regel ähnlichen Pipelines und schlagen verschiedene feinsinnige Designs vor. Trotz des erreichten Fortschritts ist es auffällig, dass sogar in dieser blühenden Ära zahlreicher mächtiger Visionssysteme fast alle SSS-Arbeiten immer noch 1) veraltete ResNet-Encoder mit einer kleineren ImageNet-1K-Vorkenntnistraining verwenden und 2) auf einfachen Pascal und Cityscapes-Datensätzen evaluiert werden. In dieser Arbeit argumentieren wir, dass es notwendig ist, die Baseline von SSS von ResNet-basierten Encodern auf leistungsfähigere ViT-basierte Encodern (z.B., DINOv2), die auf massiven Daten vortrainiert wurden, zu wechseln. Eine einfache Aktualisierung des Encoders (selbst bei Verwendung von 2-mal weniger Parametern) kann signifikant bessere Verbesserungen bringen als sorgfältige Methodendesigns. Auf dieser wettbewerbsfähigen Baseline basierend präsentieren wir unsere aktualisierte und vereinfachte Version UniMatch V2, die den Kerngedanken der schwach-zu-starken Konsistenz von V1 übernimmt, aber geringere Trainingskosten verursacht und konsistent bessere Ergebnisse liefert. Darüber hinaus beobachten wir eine allmählich gesättigte Leistung auf Pascal und Cityscapes und fordern daher auf, sich auf anspruchsvollere Benchmarks mit komplexer Taxonomie wie den ADE20K- und COCO-Datensätzen zu konzentrieren. Der Code, die Modelle und die Protokolle aller gemeldeten Werte sind unter https://github.com/LiheYoung/UniMatch-V2 verfügbar.