Zuverlässige Propagation-Korrektur-Modulation für die Video-Objekt-Segmentierung

Die Fehlerfortpflanzung stellt ein allgemeines, jedoch entscheidendes Problem im online-semi-supervised Video-Object-Segmentation dar. Unser Ziel ist es, die Fehlerfortpflanzung durch einen Korrekturmechanismus mit hoher Zuverlässigkeit zu unterdrücken. Der zentrale Einblick besteht darin, die Korrektur vom herkömmlichen Maskenfortpflanzungsprozess durch zuverlässige Hinweise zu entkoppeln. Wir führen zwei Modulatoren ein: einen Fortpflanzungs- und einen Korrekturmodulator, die jeweils eine kanalweise Neukalibrierung der Embeddings des Zielframes basierend auf lokalen zeitlichen Korrelationen und zuverlässigen Referenzen separat durchführen. Konkret integrieren wir die Modulatoren in eine kaskadierte Fortpflanzungs-Korrektur-Architektur. Dadurch wird vermieden, dass die Wirkung des zuverlässigen Korrekturmodulators durch den Fortpflanzungsmodulator überlagert wird. Obwohl der Referenzframe mit der Ground-Truth-Maske zuverlässige Hinweise liefert, kann er sich erheblich vom Zielframe unterscheiden und unsichere oder unvollständige Korrelationen erzeugen. Um die Referenzhinweise zu verstärken, ergänzen wir zuverlässige Merkmalspatches in einen beibehaltenen Pool, wodurch den Modulatoren umfassendere und expressivere Objektdarstellungen zur Verfügung gestellt werden. Zusätzlich wurde ein Zuverlässigkeitsfilter entworfen, um zuverlässige Patches zu identifizieren und sie in nachfolgende Frames weiterzuleiten. Unser Modell erreicht state-of-the-art Ergebnisse auf den Benchmarks YouTube-VOS18/19 sowie DAVIS17-Val/Test. Umfangreiche Experimente zeigen, dass der Korrekturmechanismus durch die vollständige Ausnutzung zuverlässiger Anleitungen eine erhebliche Leistungssteigerung ermöglicht. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/JerryX1110/RPCMVOS.