HyperAIHyperAI
vor 11 Tagen

Lernen orthogonaler Prototypen für die verallgemeinerte Few-Shot-Semantische Segmentierung

{Ting Yao, Yongdong Zhang, Hongtao Xie, Zhaofan Qiu, Yiheng Zhang, Sun-Ao Liu}
Lernen orthogonaler Prototypen für die verallgemeinerte Few-Shot-Semantische Segmentierung
Abstract

Generalisierte Few-Shot-Semantische Segmentierung (GFSS) unterscheidet Pixel von Basis- und neuen Klassen gleichzeitig vom Hintergrund, wobei ausreichend Daten der Basis-Klassen sowie nur wenige Beispiele der neuen Klasse zur Verfügung stehen. Ein typischer GFSS-Ansatz weist zwei Trainingsphasen auf: die Lernphase für Basis-Klassen und die Aktualisierungsphase für neue Klassen. Dennoch beeinträchtigt ein solcher eigenständiger Aktualisierungsprozess oft bereits gut gelernte Merkmale und führt zu einer Leistungsverschlechterung auf den Basis-Klassen. In diesem Artikel stellen wir eine neue Idee vor, die auf der Projektion auf orthogonale Prototypen (Projection onto Orthogonal Prototypes, POP) beruht, welche Merkmale aktualisiert, um neue Klassen zu erkennen, ohne die Leistung auf Basis-Klassen zu beeinträchtigen. POP konstruiert eine Menge orthogonaler Prototypen, wobei jeder Prototyp eine semantische Klasse repräsentiert, und trifft für jede Klasse getrennt eine Vorhersage basierend auf den Merkmalen, die auf seinen jeweiligen Prototyp projiziert wurden. Technisch gesehen lernt POP zunächst Prototypen anhand der Basis-Daten und erweitert anschließend die Prototypenmenge auf neue Klassen. Die orthogonale Beschränkung von POP fördert die Orthogonalität zwischen den gelernten Prototypen und verringert so die Beeinflussung der Basis-Klassen-Merkmale bei der Generalisierung auf neue Prototypen. Darüber hinaus nutzen wir den Rest der Merkmalsprojektion als Hintergrundrepräsentation, um semantische Verschiebungen dynamisch zu erfassen (d. h., im Aktualisierungsphase umfasst der Hintergrund nicht mehr die Pixel der neuen Klassen). Umfangreiche Experimente auf zwei Benchmarks zeigen, dass unser POP eine überlegene Leistung auf neuen Klassen erzielt, ohne die Genauigkeit auf Basis-Klassen erheblich zu beeinträchtigen. Insbesondere übertrifft POP den Stand der Technik bei der Feinabstimmung (fine-tuning) um 3,93 % im GesamtmIoU auf PASCAL-5i im 5-Shot-Szenario.

Lernen orthogonaler Prototypen für die verallgemeinerte Few-Shot-Semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI