HyperAIHyperAI

Command Palette

Search for a command to run...

Videoobjekt-Segmentierung mit sprachlichen Referenzausdrücken

Anna Khoreva Anna Rohrbach Bernt Schiele

Zusammenfassung

Die meisten modernsten semi-überwachten Video-Objekt-Segmentierungsmethoden basieren auf einem pixelgenauen Masken des Zielobjekts, das für den ersten Frame eines Videos bereitgestellt wird. Allerdings ist die Erstellung einer detaillierten Segmentierungsmaske kostspielig und zeitaufwendig. In dieser Arbeit untersuchen wir eine alternative Methode zur Identifizierung eines Zielobjekts, nämlich durch die Verwendung sprachlicher Referenzausdrücke. Neben der praktischeren und natürlicheren Art, ein Zielobjekt zu kennzeichnen, können sprachliche Spezifikationen dazu beitragen, das Ausweichen (Drift) zu vermeiden und das System robuster gegenüber komplexer Dynamik und Erscheinungsunterschieden zu machen. Indem wir die jüngsten Fortschritte bei Sprachverankerungsmodellen, die für Bilder entwickelt wurden, nutzen, schlagen wir einen Ansatz vor, um diese Modelle auf Videodaten zu erweitern und zeitlich konsistente Vorhersagen sicherzustellen. Um unsere Methode zu evaluieren, ergänzen wir die bekannten Video-Objekt-Segmentierungsbenchmarks DAVIS'16 und DAVIS'17 um sprachliche Beschreibungen der Zielobjekte. Wir zeigen, dass unser sprachlich überwachte Ansatz vergleichbare Ergebnisse wie Methoden erzielt, die Zugang zu einer pixelgenauen Maske des Zielobjekts haben (DAVIS'16), und wettbewerbsfähig ist im Vergleich zu Methoden, die Skizzen verwenden (DAVIS'17-Datensatz).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp