HyperAIHyperAI
vor 2 Monaten

TokenCut: Segmentierung von Objekten in Bildern und Videos mit selbstüberwachtem Transformer und normalisiertem Cut

Yangtao Wang; Xi Shen; Yuan Yuan; Yuming Du; Maomao Li; Shell Xu Hu; James L Crowley; Dominique Vaufreydaz
TokenCut: Segmentierung von Objekten in Bildern und Videos mit selbstüberwachtem Transformer und normalisiertem Cut
Abstract

In dieser Arbeit beschreiben wir einen graphbasierten Algorithmus, der die durch einen selbstüberwachten Transformer erlangten Merkmale verwendet, um auffällige Objekte in Bildern und Videos zu erkennen und zu segmentieren. Bei diesem Ansatz werden die Bildabschnitte, die ein Bild oder Video bilden, in einen vollständig verbundenen Graphen organisiert, wobei jede Kante zwischen zwei Abschnitten mit einem Ähnlichkeitswert beschriftet wird, der auf den vom Transformer gelernten Merkmalen basiert. Die Erkennung und Segmentierung von auffälligen Objekten wird dann als Graph-Cut-Problem formuliert und mithilfe des klassischen Normalized Cut-Algorithmus gelöst. Trotz seiner Einfachheit erreicht dieser Ansatz Stand der Technik-Ergebnisse bei mehreren üblichen Aufgaben der Objekterkennung und -segmentierung in Bildern und Videos. Für die unüberwachte Objektdetektion übertrifft dieser Ansatz die konkurrierenden Methoden um 6,1 %, 5,7 % und 2,6 % bei den Tests mit den Datensätzen VOC07, VOC12 und COCO20K. Für die unüberwachte Salienzdetektion in Bildern verbessert diese Methode den Score für den Intersection over Union (IoU) um 4,4 %, 5,6 % und 5,2 %. Dies wurde bei den Tests mit den Datensätzen ECSSD, DUTS und DUT-OMRON im Vergleich zu aktuellen Stand-der-Technik-Methoden erreicht. Diese Methode erzielt auch wettbewerbsfähige Ergebnisse bei unüberwachten Videoobjektsegmentierungsaufgaben mit den Datensätzen DAVIS, SegTV2 und FBMS.

TokenCut: Segmentierung von Objekten in Bildern und Videos mit selbstüberwachtem Transformer und normalisiertem Cut | Neueste Forschungsarbeiten | HyperAI