Prototypische Cross-Attention-Netzwerke für die Verfolgung und Segmentierung mehrerer Objekte

Die Mehrfachobjektverfolgung und -segmentierung erfordert die Erkennung, Verfolgung und Segmentierung von Objekten, die zu einer gegebenen Klasse gehören. Die meisten Ansätze nutzen nur die zeitliche Dimension, um das Zuordnungsproblem zu lösen, während sie für die eigentliche Segmentierungsmaske auf Vorhersagen einzelner Frames zurückgreifen. Wir schlagen das Prototypische Kreuzaufmerksamkeitsnetzwerk (PCAN) vor, das in der Lage ist, reichhaltige räumlich-zeitliche Informationen für die Online-Mehrfachobjektverfolgung und -segmentierung zu nutzen. PCAN kondensiert zunächst ein Raum-Zeit-Gedächtnis in eine Reihe von Prototypen und verwendet dann Kreuzaufmerksamkeit, um reichhaltige Informationen aus früheren Frames abzurufen. Um jedes Objekt zu segmentieren, greift PCAN auf ein prototypisches Erscheinungsmodul zurück, um eine Reihe kontrastierender Vordergrund- und Hintergrundprototypen zu lernen, die dann über die Zeit propagiert werden. Ausführliche Experimente zeigen, dass PCAN sowohl auf den Youtube-VIS- als auch auf den BDD100K-Datensätzen die aktuellen Gewinner von Wettbewerben zur Videoinstanzverfolgung und -segmentierung übertrifft und sowohl für einstufige als auch für zweistufige Segmentierungsframeworks effektiv ist. Der Quellcode und Videoressourcen sind unter http://vis.xyz/pub/pcan verfügbar.