HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelles Prompting durch Bildinpainting

Amir Bar Yossi Gandelsman Trevor Darrell Amir Globerson Alexei A. Efros

Zusammenfassung

Wie kann man ein vortrainiertes visuelles Modell für neue Downstream-Aufgaben anpassen, ohne spezifische Feinabstimmung oder irgendeine Modifikation des Modells durchzuführen? Inspiriert von der Verwendung von Prompts im Bereich der natürlichen Sprachverarbeitung (NLP), untersucht dieser Artikel das Konzept des visuellen Prompting: Bei Testzeit werden Eingabe-Ausgabe-Bildbeispiele einer neuen Aufgabe und ein neues Eingangsbild gegeben; das Ziel ist es, automatisch ein Ausgabebild zu erzeugen, das mit den gegebenen Beispielen konsistent ist. Wir zeigen, dass die Formulierung dieses Problems als einfache Bildinpainting – buchstäblich nur das Füllen eines Lochs in einem zusammengefügten visuellen Prompt-Bild – überraschend effektiv ist, vorausgesetzt, der Inpainting-Algorithmus wurde auf den richtigen Daten trainiert. Wir trainieren maskierte Autoencoder auf einem neu zusammengestellten Datensatz – 88.000 unbeschriftete Abbildungen aus Quellen akademischer Arbeiten auf Arxiv. Anschließend wenden wir visuelles Prompting auf diese vortrainierten Modelle an und demonstrieren Ergebnisse bei verschiedenen Downstream-Aufgaben im Bereich Bild-zu-Bild-Verarbeitung, darunter Vordergrundsegmentierung, Einzelobjekterkennung, Kolorierung und Kantendetektion.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp