vor 2 Monaten

Lernen von generativen Vision-Transformern mit energiebasierter latenter Raum für Salienzvorhersage

Jing Zhang; Jianwen Xie; Nick Barnes; Ping Li

Abstract

Vision-Transformer-Netzwerke haben in vielen Aufgaben der Computer Vision ihre Überlegenheit gezeigt. In dieser Arbeit gehen wir einen Schritt weiter und schlagen einen neuen generativen Vision Transformer vor, bei dem die latente Variable einem informativen energiebasierten Prior folgt, um hervorstechende Objekte zu erkennen. Sowohl das Vision-Transformer-Netzwerk als auch das energiebasierte Prior-Modell werden gemeinsam durch Markov-Ketten-Monte-Carlo-basierte Maximum-Likelihood-Schätzung trainiert, wobei die Stichproben aus den nicht direkt berechenbaren A-posteriori- und Priorverteilungen der latenten Variablen durch Langevin-Dynamik gezogen werden. Mit dem generativen Vision Transformer können wir außerdem leicht eine pixelweise Unsicherheitskarte aus einem Bild extrahieren, die das Modellvertrauen in der Vorhersage von Hervorhebung aus dem Bild zeigt. Im Gegensatz zu existierenden generativen Modellen, die die Priorverteilung der latenten Variablen als eine einfache isotrope Gauß-Verteilung definieren, verwendet unser Modell einen informativen energiebasierten Prior, der flexibler ist, um den latenten Raum der Daten abzubilden. Wir wenden den vorgeschlagenen Ansatz sowohl auf RGB- als auch auf RGB-D-Aufgaben zur Erkennung hervorstechender Objekte an. Ausführliche experimentelle Ergebnisse zeigen, dass unser Framework nicht nur genaue Hervorhebungsvorhersagen erzielen kann, sondern auch sinnvolle Unsicherheitskarten liefert, die mit der menschlichen Wahrnehmung übereinstimmen.