HyperAIHyperAI

Command Palette

Search for a command to run...

RefVOS: Ein detaillierter Blick auf Bezugsausdrücke für die Video-Objekt-Segmentierung

Miriam Bellver Carles Ventura Carina Silberer Ioannis Kazakos Jordi Torres Xavier Giro-i-Nieto

Zusammenfassung

Die Aufgabe der Video-Objekt-Segmentierung mit Bezugsausdrücken (sprachgesteuerte VOS) besteht darin, gegeben einen sprachlichen Ausdruck und ein Video, binäre Masken für das Objekt zu generieren, auf das sich der Ausdruck bezieht. In unserer Arbeit wird argumentiert, dass die bisher verwendeten Benchmarks für diese Aufgabe hauptsächlich aus trivialen Fällen bestehen, bei denen die Referenten mit einfachen Ausdrücken identifiziert werden können. Unsere Analyse basiert auf einer neuen Klassifizierung der Ausdrücke in den Datensätzen DAVIS-2017 und Actor-Action in triviale und nicht-triviale Bezugsausdrücke (REs), wobei die nicht-trivialen REs mit sieben semantischen Kategorien annotiert wurden. Anhand dieser Daten analysieren wir die Ergebnisse eines neuartigen neuronalen Netzwerks, RefVOS, das competitive Ergebnisse für die sprachgesteuerte Bildsegmentierung und state-of-the-art Ergebnisse für die sprachgesteuerte Video-Objekt-Segmentierung erzielt. Unsere Studie zeigt, dass die zentralen Herausforderungen dieser Aufgabe mit dem Verständnis von Bewegung und statischen Aktionen zusammenhängen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp