HyperAIHyperAI

Command Palette

Search for a command to run...

Prototypische Cross-Attention-Netzwerke für die Verfolgung und Segmentierung mehrerer Objekte

Lei Ke Xia Li Martin Danelljan Yu-Wing Tai Chi-Keung Tang Fisher Yu

Zusammenfassung

Die Mehrfachobjektverfolgung und -segmentierung erfordert die Erkennung, Verfolgung und Segmentierung von Objekten, die zu einer gegebenen Klasse gehören. Die meisten Ansätze nutzen nur die zeitliche Dimension, um das Zuordnungsproblem zu lösen, während sie für die eigentliche Segmentierungsmaske auf Vorhersagen einzelner Frames zurückgreifen. Wir schlagen das Prototypische Kreuzaufmerksamkeitsnetzwerk (PCAN) vor, das in der Lage ist, reichhaltige räumlich-zeitliche Informationen für die Online-Mehrfachobjektverfolgung und -segmentierung zu nutzen. PCAN kondensiert zunächst ein Raum-Zeit-Gedächtnis in eine Reihe von Prototypen und verwendet dann Kreuzaufmerksamkeit, um reichhaltige Informationen aus früheren Frames abzurufen. Um jedes Objekt zu segmentieren, greift PCAN auf ein prototypisches Erscheinungsmodul zurück, um eine Reihe kontrastierender Vordergrund- und Hintergrundprototypen zu lernen, die dann über die Zeit propagiert werden. Ausführliche Experimente zeigen, dass PCAN sowohl auf den Youtube-VIS- als auch auf den BDD100K-Datensätzen die aktuellen Gewinner von Wettbewerben zur Videoinstanzverfolgung und -segmentierung übertrifft und sowohl für einstufige als auch für zweistufige Segmentierungsframeworks effektiv ist. Der Quellcode und Videoressourcen sind unter http://vis.xyz/pub/pcan verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp