Lernen der Video-Objektsegmentierung aus unlabeled Videos

Wir stellen eine neue Methode für die Video-Objekt-Segmentierung (VOS) vor, die das Lernen von Objektmustern aus unbeschrifteten Videos anspricht, im Gegensatz zu den meisten bestehenden Ansätzen, die stark auf umfangreiche annotierte Daten angewiesen sind. Wir führen einen einheitlichen unsupervisierten/ schwach supervisierten Lernrahmen namens MuG ein, der die inhärenten Eigenschaften der VOS auf mehreren Granularitätsstufen umfassend erfasst. Unser Ansatz trägt dazu bei, das Verständnis visueller Muster in der VOS zu vertiefen und die Annotierungsbelastung erheblich zu reduzieren. Dank einer sorgfältig entworfenen Architektur und einer starken Repräsentationslernfähigkeit kann das erlernte Modell in vielfältigen VOS-Szenarien eingesetzt werden, darunter Objekt- und Instanz-level Zero-Shot-VOS sowie One-Shot-VOS. Experimente zeigen vielversprechende Leistungen in diesen Szenarien sowie das Potenzial von MuG, unbeschriftete Daten effektiv zu nutzen, um die Segmentierungsgenauigkeit weiter zu verbessern.