HyperAIHyperAI
vor 2 Monaten

Selbstüberwachte Transformer für die unüberwachte Objekterkennung mit Normalized Cut

Yangtao Wang; Xi Shen; Shell Hu; Yuan Yuan; James Crowley; Dominique Vaufreydaz
Selbstüberwachte Transformer für die unüberwachte Objekterkennung mit Normalized Cut
Abstract

Transformer, die mit selbstüberwachtem Lernen unter Verwendung der Selbstdestillationsverlustfunktion (DINO) trainiert wurden, haben sich als fähig erwiesen, Aufmerksamkeitskarten zu erzeugen, die wichtige Vordergrundobjekte hervorheben. In dieser Arbeit präsentieren wir einen graphbasierten Ansatz, der die selbstüberwachten Transformer-Features verwendet, um ein Objekt aus einem Bild zu erkennen. Visuelle Tokens werden als Knoten in einem gewichteten Graphen betrachtet, wobei die Kanten eine Verbindlichkeitsscore auf Basis der Ähnlichkeit der Tokens repräsentieren. Vordergrundobjekte können dann durch eine normierte Graph-Cut-Segmentierung in selbstähnliche Regionen gruppiert werden. Wir lösen das Graph-Cut-Problem mithilfe von spektraler Clustering mit verallgemeinter Eigenwertzerlegung und zeigen, dass der zweitkleinste Eigenvektor eine Schnittlösung liefert, da sein Betrag die Wahrscheinlichkeit angibt, dass ein Token zu einem Vordergrundobjekt gehört. Trotz seiner Einfachheit verbessert dieser Ansatz die Leistungsfähigkeit der unüberwachten Objekterkennung erheblich: Wir erreichen Verbesserungen von 6,9 %, 8,1 % und 8,1 % im Vergleich zum aktuellen Stand der Technik LOST auf den Datensätzen VOC07, VOC12 und COCO20K. Die Leistung kann durch Hinzufügen eines zweistufigen klassifikationsunabhängigen Detektors (CAD) weiter gesteigert werden. Unser vorgeschlagener Ansatz kann leicht auf unüberwachte Salienzdetektion und schwach überwachte Objekterkennung erweitert werden. Bei der unüberwachten Salienzdetektion verbessern wir den IoU (Intersection over Union) um 4,9 %, 5,2 % und 12,9 % auf den Datensätzen ECSSD, DUTS und DUT-OMRON im Vergleich zum bisherigen Stand der Technik. Bei der schwach überwachten Objekterkennung erzielen wir wettbewerbsfähige Ergebnisse auf CUB und ImageNet.

Selbstüberwachte Transformer für die unüberwachte Objekterkennung mit Normalized Cut | Neueste Forschungsarbeiten | HyperAI