Das Objekt in die Video-Objekt-Segmentierung zurückbringen

Wir stellen Cutie vor, ein Video-Objekt-Segmentierungsnetzwerk (VOS) mit objektorientiertem Speicherzugriff, das die Objektrepräsentation aus dem Speicher zurück in das Segmentierungsergebnis des Videoobjekts integriert. Kürzliche Arbeiten im Bereich der VOS verwenden einen bottom-up-basierten, pixelorientierten Speicherzugriff, der aufgrund von Matching-Noise, insbesondere in Gegenwart von Ablenkelementen, leidet und daher bei anspruchsvolleren Daten eine geringere Leistung erzielt. Im Gegensatz dazu führt Cutie einen top-down-basierten, objektorientierten Speicherzugriff durch Anpassung einer kleinen Menge an Objektanfragen durch. Über diese interagiert es iterativ mit den bottom-up-basierten Pixelmerkmalen mittels eines abfragebasierten Objekttransformers (qt, daher Cutie). Die Objektanfragen fungieren als hochwertige Zusammenfassung des Zielobjekts, während hochaufgelöste Merkmalskarten für eine genaue Segmentierung beibehalten werden. In Verbindung mit einem Vordergrund-Hintergrund-Maskierten Aufmerksamkeitssystem trennt Cutie die Semantik des Vordergrundobjekts sauber vom Hintergrund. Auf dem anspruchsvollen MOSE-Datensatz verbessert Cutie sich um 8,7 J&F gegenüber XMem bei vergleichbarer Laufzeit und um 4,2 J&F gegenüber DeAOT, wobei es dreimal schneller ist. Der Quellcode ist unter folgendem Link verfügbar: https://hkchengrex.github.io/Cutie