Polar Relative Positional Encoding für Video-Sprache-Segmentation

In diesem Paper behandeln wir eine anspruchsvolle Aufgabe namens Video-Sprache-Segmentierung. Gegeben ein Video und einen Satz in natürlicher Sprache soll das Objekt oder die Handelnde, das bzw. die im Satz beschrieben wird, in den Videoframes segmentiert werden. Um ein Zielobjekt präzise zu kennzeichnen, bezieht sich der gegebene Satz in der Regel auf mehrere Attribute, wie beispielsweise benachbarte Objekte mit räumlichen Beziehungen. In diesem Beitrag stellen wir eine neuartige Polar Relative Positional Encoding (PRPE)-Mechanismus vor, der räumliche Beziehungen „linguistisch“ darstellt, d. h. in Form von Richtung und Reichweite. Dadurch kann das Satzmerkmal direkter mit den räumlichen Embeddings interagieren, um implizite relative räumliche Beziehungen zu extrahieren. Zudem schlagen wir parametrisierte Funktionen für diese räumlichen Embeddings vor, um kontinuierliche, reelle Richtungen und Reichweiten anzupassen. Mit PRPE entwerfen wir ein Polar Attention Module (PAM) als grundlegendes Modul für die Vision-Sprache-Fusion. Unser Ansatz erreicht eine deutliche Verbesserung von 11,4 Prozentpunkten im mAP auf dem anspruchsvollen A2D Sentences-Datensatz im Vergleich zur bisher besten Methode. Zudem erzielt unser Verfahren wettbewerbsfähige Ergebnisse auf dem J-HMDB Sentences-Datensatz.