Videoobjekt-Segmentierung mit sprachlichen Referenzausdrücken

Die meisten modernsten semi-überwachten Video-Objekt-Segmentierungsmethoden basieren auf einem pixelgenauen Masken des Zielobjekts, das für den ersten Frame eines Videos bereitgestellt wird. Allerdings ist die Erstellung einer detaillierten Segmentierungsmaske kostspielig und zeitaufwendig. In dieser Arbeit untersuchen wir eine alternative Methode zur Identifizierung eines Zielobjekts, nämlich durch die Verwendung sprachlicher Referenzausdrücke. Neben der praktischeren und natürlicheren Art, ein Zielobjekt zu kennzeichnen, können sprachliche Spezifikationen dazu beitragen, das Ausweichen (Drift) zu vermeiden und das System robuster gegenüber komplexer Dynamik und Erscheinungsunterschieden zu machen. Indem wir die jüngsten Fortschritte bei Sprachverankerungsmodellen, die für Bilder entwickelt wurden, nutzen, schlagen wir einen Ansatz vor, um diese Modelle auf Videodaten zu erweitern und zeitlich konsistente Vorhersagen sicherzustellen. Um unsere Methode zu evaluieren, ergänzen wir die bekannten Video-Objekt-Segmentierungsbenchmarks DAVIS'16 und DAVIS'17 um sprachliche Beschreibungen der Zielobjekte. Wir zeigen, dass unser sprachlich überwachte Ansatz vergleichbare Ergebnisse wie Methoden erzielt, die Zugang zu einer pixelgenauen Maske des Zielobjekts haben (DAVIS'16), und wettbewerbsfähig ist im Vergleich zu Methoden, die Skizzen verwenden (DAVIS'17-Datensatz).