Modulare Interaktive Videoobjekt-Segmentierung: Interaktion-zu-Maske, Verbreitung und differenzbewusste Fusion

Wir präsentieren das Modulare interaktive VOS (MiVOS)-Framework, das die Umwandlung von Interaktionen in Masken und die Maskenfortpflanzung entkoppelt, was eine höhere Generalisierbarkeit und bessere Leistung ermöglicht. Die Interaktionsmodule werden getrennt trainiert und wandeln Benutzerinteraktionen in Objektmasken um, die dann durch unser Fortpflanzungsmodul unter Verwendung einer neuen top-$k$-Filterstrategie im Raum-Zeit-Gedächtnis zeitlich fortgepflanzt werden. Um den Benutzerabsichten effektiv Rechnung zu tragen, schlagen wir ein neues differenzbewusstes Modul vor, das lernt, wie man die Masken vor und nach jeder Interaktion angemessen fusioniert, wobei diese mit den Zielbildern durch das Anwenden des Raum-Zeit-Gedächtnisses ausgerichtet werden. Wir evaluieren unsere Methode sowohl qualitativ als auch quantitativ mit verschiedenen Formen der Benutzerinteraktion (z.B. Kritzeleien, Klicks) auf DAVIS, um zu zeigen, dass unsere Methode den aktuellen Stand der Technik übertrifft und dabei weniger Bildinteraktionen erfordert. Zudem verallgemeinert sie sich besser auf verschiedene Arten von Benutzerinteraktionen. Als Beitrag stellen wir einen groß angelegten synthetischen VOS-Datensatz mit pixelgenauer Segmentierung von 4,8 Millionen Bildern zur Verfügung, der unseren Quellcodes begleitet und zukünftige Forschungen erleichtern soll.