Seitenadapter-Netzwerk für offene-Vokabular-Semantische Segmentierung

Diese Arbeit präsentiert einen neuen Ansatz für die offene-Vokabular-Semantiksegmentierung mithilfe eines vortrainierten Vision-Sprache-Modells, den sogenannten Side Adapter Network (SAN). Unser Ansatz formuliert die Aufgabe der Semantiksegmentierung als Regionserkennungsproblem. An ein fixiertes CLIP-Modell wird ein Nebennetzwerk mit zwei Zweigen angefügt: einer zur Vorhersage von Maskenvorschlägen und ein zweiter zur Vorhersage einer Aufmerksamkeitsbias-Information, die im CLIP-Modell verwendet wird, um die Klassen der Masken zu erkennen. Diese entkoppelte Architektur ermöglicht es dem CLIP-Modell, die Klassen der Maskenvorschläge effizienter zu erkennen. Da das angefügte Nebennetzwerk CLIP-Features wiederverwenden kann, bleibt es äußerst leicht. Zudem lässt sich das gesamte Netzwerk end-to-end trainieren, wodurch das Nebennetzwerk an das fixierte CLIP-Modell angepasst werden kann – dies sorgt dafür, dass die vorhergesagten Maskenvorschläge CLIP-orientiert sind. Unser Ansatz ist schnell, präzise und fügt lediglich wenige zusätzliche trainierbare Parameter hinzu. Wir evaluieren unsere Methode an mehreren Benchmark-Datenbanken für Semantiksegmentierung. Unser Verfahren übertrifft dabei andere Ansätze erheblich, wobei es bis zu 18-mal weniger trainierbare Parameter und eine bis zu 19-mal schnellere Inferenzgeschwindigkeit aufweist. Wir hoffen, dass unser Ansatz als solide Basis dient und zukünftige Forschung in der offenen-Vokabular-Semantiksegmentierung erleichtert. Der Quellcode wird unter https://github.com/MendelXu/SAN bereitgestellt.