HyperAIHyperAI
vor 2 Monaten

Schauen Sie, bevor Sie zuordnen: Die Instanzverstehens ist in der Video-Objekt-Segmentierung entscheidend.

Junke Wang; Dongdong Chen; Zuxuan Wu; Chong Luo; Chuanxin Tang; Xiyang Dai; Yucheng Zhao; Yujia Xie; Lu Yuan; Yu-Gang Jiang
Schauen Sie, bevor Sie zuordnen: Die Instanzverstehens ist in der Video-Objekt-Segmentierung entscheidend.
Abstract

Die Exploration dichter Zuordnungen zwischen dem aktuellen Frame und vergangenen Frames zur Modellierung von langreichweitigen Kontexten hat bei der Video-Objekt-Segmentierung (VOS) kürzlich beeindruckende Ergebnisse gezeigt. Dennoch sind die genannten Ansätze aufgrund des Mangels an Instanzverständnis oft anfällig gegenüber großen Erscheinungsunterschieden oder Perspektivänderungen, die durch die Bewegung von Objekten und Kameras entstehen. In dieser Arbeit argumentieren wir, dass das Instanzverständnis in der VOS von Bedeutung ist und dass dessen Integration mit memoriabasierten Zuordnungen Synergien nutzen kann, was intuitiv aus der Definition der VOS-Aufgabe, nämlich die Identifizierung und Segmentierung von Objektinstanzen innerhalb eines Videos, sinnvoll erscheint. Um dieses Ziel zu erreichen, präsentieren wir ein Netzwerk mit zwei Zweigen für VOS: Der abfragebasierte Instanzsegmentierungs-Zweig (IS) untersucht die Instanzdetails des aktuellen Frames, während der VOS-Zweig eine räumlich-zeitliche Zuordnung mit dem Speicherbank durchführt. Wir verwenden die gut gelernten Objektanfragen aus dem IS-Zweig, um instanzspezifische Informationen in den Abfragekey einzubringen, wodurch eine instanzverstärkte Zuordnung weiter verbessert wird. Darüber hinaus führen wir einen Mehrweg-Fusionsblock ein, um den Speicherabruf effektiv mit mehrskaligen Features vom Instanzsegmentierungs-Dekoder zu kombinieren. Dieser Block integriert hochaufgelöste instanzbewusste Features zur Erzeugung der endgültigen Segmentierungsergebnisse. Unsere Methode erzielt den Stand der Technik auf DAVIS 2016/2017 val (92,6 % und 87,1 %), DAVIS 2017 test-dev (82,8 %) sowie YouTube-VOS 2018/2019 val (86,3 % und 86,3 %), wobei sie alternative Methoden deutlich übertrifft.

Schauen Sie, bevor Sie zuordnen: Die Instanzverstehens ist in der Video-Objekt-Segmentierung entscheidend. | Neueste Forschungsarbeiten | HyperAI