Generatives Prompt-Modell für schwach überwachte Objektlokalisation

Die schwach überwachte Objektlokalisation (WSOL) stellt weiterhin eine Herausforderung dar, wenn es darum geht, Objektlokalisierungsmodelle aus Bildkategorielabels zu lernen. Herkömmliche Methoden, die diskriminativ Aktivationsmodelle trainieren, ignorieren repräsentative, aber weniger diskriminative Objekte Teile. In dieser Studie schlagen wir ein generatives Prompt-Modell (GenPromp) vor, das den ersten generativen Prozess definiert, um weniger diskriminative Objektteile durch die Formulierung der WSOL als bedingte Bildentrauschung zu lokalisieren. Während des Trainings konvertiert GenPromp Bildkategorielabels in lernfähige Prompt-Embeddings, die einem generativen Modell zugeführt werden, um das eingegebene Bild mit Rauschen bedingt wiederherzustellen und repräsentative Embeddings zu lernen. Während der Inferenz kombiniert enPromp die repräsentativen Embeddings mit diskriminativen Embeddings (die von einem fertigen visuellen-sprachlichen Modell abgefragt werden), um sowohl repräsentative als auch diskriminative Kapazitäten zu nutzen. Die kombinierten Embeddings werden letztendlich verwendet, um hochwertige Aufmerksamkeitskarten in mehreren Skalen zu erzeugen, die die Lokalisierung des gesamten Objektaufenthaltsbereichs erleichtern. Experimente auf CUB-200-2011 und ILSVRC zeigen, dass GenPromp die besten diskriminativen Modelle jeweils um 5,2 % und 5,6 % (Top-1 Loc) übertreffen und damit einen festen Baseline für WSOL mit dem generativen Modell setzen. Der Quellcode ist unter https://github.com/callsys/GenPromp verfügbar.