URVOS: Unified Referring Video Object Segmentation Network mit einer großskaligen Benchmark

Wir schlagen ein einheitliches Netzwerk für die Bezugsauszeichnung von Objekten in Videos (URVOS) vor. URVOS nimmt ein Video und eine sprachliche Beschreibung als Eingaben entgegen und schätzt die in den einzelnen Videoframes durch die gegebene Sprachexpression gemeinten {Objektmasken} ab. Unser Algorithmus löst dieses anspruchsvolle Problem, indem er sprachbasierte Objektauszeichnung und Maskenpropagation gemeinsam mit einem einzigen tiefen neuronalen Netzwerk durchführt, wobei zwei Aufmerksamkeitsmodelle geschickt kombiniert werden. Zudem erstellen wir die erste großskalige Datensammlung für die Bezugsauszeichnung von Objekten in Videos, die wir Refer-Youtube-VOS nennen. Wir evaluieren unser Modell an zwei Benchmark-Datensätzen, einschließlich unseres eigenen, und belegen die Wirksamkeit des vorgeschlagenen Ansatzes. Die Datensammlung wird unter url{https://github.com/skynbe/Refer-Youtube-VOS} veröffentlicht.