RefVOS: Ein detaillierter Blick auf Bezugsausdrücke für die Video-Objekt-Segmentierung

Die Aufgabe der Video-Objekt-Segmentierung mit Bezugsausdrücken (sprachgesteuerte VOS) besteht darin, gegeben einen sprachlichen Ausdruck und ein Video, binäre Masken für das Objekt zu generieren, auf das sich der Ausdruck bezieht. In unserer Arbeit wird argumentiert, dass die bisher verwendeten Benchmarks für diese Aufgabe hauptsächlich aus trivialen Fällen bestehen, bei denen die Referenten mit einfachen Ausdrücken identifiziert werden können. Unsere Analyse basiert auf einer neuen Klassifizierung der Ausdrücke in den Datensätzen DAVIS-2017 und Actor-Action in triviale und nicht-triviale Bezugsausdrücke (REs), wobei die nicht-trivialen REs mit sieben semantischen Kategorien annotiert wurden. Anhand dieser Daten analysieren wir die Ergebnisse eines neuartigen neuronalen Netzwerks, RefVOS, das competitive Ergebnisse für die sprachgesteuerte Bildsegmentierung und state-of-the-art Ergebnisse für die sprachgesteuerte Video-Objekt-Segmentierung erzielt. Unsere Studie zeigt, dass die zentralen Herausforderungen dieser Aufgabe mit dem Verständnis von Bewegung und statischen Aktionen zusammenhängen.