Explizites visuelles Anstoßen für segmentierte Strukturen auf niedrigster Ebene

Wir betrachten das generische Problem der Erkennung von Niedrig-Level-Strukturen in Bildern, das die Segmentierung manipulierter Bereiche, die Identifizierung außer Fokus liegender Pixel, die Trennung von Schattenregionen und die Erkennung verborgener Objekte umfasst. Während jedes dieser Themen in der Regel mit einer domänenspezifischen Lösung behandelt wurde, zeigen wir, dass ein vereintes Vorgehen über alle Bereiche hinweg gut abschneidet. Inspiriert von den weit verbreiteten Protokollen des Vortrainings und anschließenden Prompt-Tuning im Bereich der NLP (Natural Language Processing), schlagen wir ein neues visuelles Prompting-Modell vor, das als Explicit Visual Prompting (EVP) bezeichnet wird. Im Gegensatz zu früheren visuellen Prompting-Methoden, die in der Regel eine implizite Einbettung auf Datensatz-Ebene darstellen, liegt unser zentrales Konzept darin, die anpassbaren Parameter auf den expliziten visuellen Inhalt jedes einzelnen Bildes zu fokussieren, d.h. auf die Merkmale aus festgelegten Patch-Einbettungen und den Hochfrequenzkomponenten der Eingabe. Das vorgeschlagene EVP übertreffen andere parameter-effiziente Anpassungsprotokolle bei gleicher Anzahl an anpassbaren Parametern (5,7 % zusätzliche trainierbare Parameter pro Aufgabe) erheblich. EVP erzielt auch Stand-of-the-Art-Leistungen bei verschiedenen Segmentierungsaufgaben für Niedrig-Level-Strukturen im Vergleich zu aufgabenbezogenen Lösungen. Unser Code ist unter folgendem Link verfügbar: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.