vor 2 Monaten

Segmentierung von bewegten Objekten durch eine objektzentrierte schichtweise Darstellung

Junyu Xie; Weidi Xie; Andrew Zisserman

Abstract

Das Ziel dieser Arbeit ist es, ein Modell zu entwickeln, das in der Lage ist, mehrere bewegte Objekte in einem Video zu entdecken, zu verfolgen und zu segmentieren. Wir leisten vier Beiträge: Erstens führen wir ein objektzentriertes Segmentierungsmodell mit einer tiefenreihigen Schichtdarstellung ein. Dies wird durch eine Variante der Transformer-Architektur implementiert, die optischen Fluss verarbeitet, wobei jeder Abfragevektor ein Objekt und dessen Schicht für das gesamte Video spezifiziert. Das Modell kann effektiv mehrere bewegte Objekte entdecken und gegenseitige Verdeckungen behandeln; Zweitens präsentieren wir einen skalierbaren Pipeline zur Generierung von synthetischen Trainingsdaten für mehrere Objekte durch Schichtkompositionen, der verwendet wird, um das vorgeschlagene Modell zu trainieren. Dies reduziert erheblich die Anforderungen an arbeitsintensive Annotationen und unterstützt die Generalisierung von Sim2Real (Simulation zur Realität); Drittens führen wir umfassende Ablationsstudien durch, die zeigen, dass das Modell in der Lage ist, die Beständigkeit von Objekten und zeitliche Formkonsistenz zu lernen sowie amodale Segmentierungsmasken vorherzusagen; Viertens evaluieren wir unser Modell, das ausschließlich auf synthetischen Daten trainiert wurde, anhand standardisierter Video-Segmentierungsbenchmarks wie DAVIS, MoCA, SegTrack und FBMS-59 und erreichen dabei den Stand der Technik unter den existierenden Methoden, die keine manuellen Annotationen verwenden. Durch Testzeit-Anpassung beobachten wir zudem weitere Leistungssteigerungen.