Visuelles Prompting durch Bildinpainting

Wie kann man ein vortrainiertes visuelles Modell für neue Downstream-Aufgaben anpassen, ohne spezifische Feinabstimmung oder irgendeine Modifikation des Modells durchzuführen? Inspiriert von der Verwendung von Prompts im Bereich der natürlichen Sprachverarbeitung (NLP), untersucht dieser Artikel das Konzept des visuellen Prompting: Bei Testzeit werden Eingabe-Ausgabe-Bildbeispiele einer neuen Aufgabe und ein neues Eingangsbild gegeben; das Ziel ist es, automatisch ein Ausgabebild zu erzeugen, das mit den gegebenen Beispielen konsistent ist. Wir zeigen, dass die Formulierung dieses Problems als einfache Bildinpainting – buchstäblich nur das Füllen eines Lochs in einem zusammengefügten visuellen Prompt-Bild – überraschend effektiv ist, vorausgesetzt, der Inpainting-Algorithmus wurde auf den richtigen Daten trainiert. Wir trainieren maskierte Autoencoder auf einem neu zusammengestellten Datensatz – 88.000 unbeschriftete Abbildungen aus Quellen akademischer Arbeiten auf Arxiv. Anschließend wenden wir visuelles Prompting auf diese vortrainierten Modelle an und demonstrieren Ergebnisse bei verschiedenen Downstream-Aufgaben im Bereich Bild-zu-Bild-Verarbeitung, darunter Vordergrundsegmentierung, Einzelobjekterkennung, Kolorierung und Kantendetektion.