Zu robustem Videoobjektsegmentierung mit adaptiver Objektkalibrierung

Im boomenden Videozeitalter gewinnt die Video-Segmentierung zunehmend an Bedeutung in der Multimedia-Gemeinschaft. Die semi-überwachte Video-Objekt-Segmentierung (VOS) hat das Ziel, Objekte in allen Zielbildern eines Videos zu segmentieren, wenn annotierte Objektmasken von Referenzbildern gegeben sind. Die meisten existierenden Methoden bilden pixelweise Korrelationen zwischen Referenz und Ziel und führen dann eine pixelweise Verfolgung durch, um die Zielmasken zu erhalten. Aufgrund der Vernachlässigung von objektniveau-Hinweisen sind pixelbasierte Ansätze gegenüber Störungen anfällig und können sogar ähnliche Objekte nicht unterscheiden. Für eine robuste VOS ist das entscheidende Erkenntnis, die Darstellung und Maske jedes spezifischen Objekts so zu kalibrieren, dass sie ausdrucksstark und diskriminativ sind. Demgemäß schlagen wir ein neues tiefes Netzwerk vor, das objektspezifische Darstellungen adaptiv konstruieren und Objektmasken kalibrieren kann, um eine höhere Robustheit zu erreichen. Zunächst bauen wir die Objekt-Darstellungen durch Anwendung einer adaptiven Objekt-Proxy-Aggregationsmethode (AOP) auf, bei der die Proxies beliebig geformte Segmente auf mehreren Ebenen für den Vergleich mit Referenzbildern darstellen. Anschließend werden Prototyp-Masken anhand der Referenz-Ziel-Korrelationen unter Verwendung von AOP erstellt. Danach werden diese Proto-Masken durch Netzwerkmodyfikation weiter kalibriert, wobei die Kalibrierung an die Darstellungen der Objekt-Proxys angepasst wird. Wir konsolidieren diesen bedingten Maskenkalibrierungsprozess fortschreitend, wobei sich die Objekt-Darstellungen und Proto-Masken iterativ verfeinern. Umfangreiche Experimente wurden auf den Standard-VOS-Benchmarks YouTube-VOS-18/19 und DAVIS-17 durchgeführt. Unser Modell erzielt den aktuellen Stand der Technik unter den bereits veröffentlichten Arbeiten und zeigt auch eine überlegene Robustheit gegenüber Störungen. Unser Projekt-Repository befindet sich unter https://github.com/JerryX1110/Robust-Video-Object-Segmentation.