HyperAIHyperAI

Command Palette

Search for a command to run...

Polar Relative Positional Encoding für Video-Sprache-Segmentation

Qi Tian Fei Wu Lingxi Xie Ke Ning

Zusammenfassung

In diesem Paper behandeln wir eine anspruchsvolle Aufgabe namens Video-Sprache-Segmentierung. Gegeben ein Video und einen Satz in natürlicher Sprache soll das Objekt oder die Handelnde, das bzw. die im Satz beschrieben wird, in den Videoframes segmentiert werden. Um ein Zielobjekt präzise zu kennzeichnen, bezieht sich der gegebene Satz in der Regel auf mehrere Attribute, wie beispielsweise benachbarte Objekte mit räumlichen Beziehungen. In diesem Beitrag stellen wir eine neuartige Polar Relative Positional Encoding (PRPE)-Mechanismus vor, der räumliche Beziehungen „linguistisch“ darstellt, d. h. in Form von Richtung und Reichweite. Dadurch kann das Satzmerkmal direkter mit den räumlichen Embeddings interagieren, um implizite relative räumliche Beziehungen zu extrahieren. Zudem schlagen wir parametrisierte Funktionen für diese räumlichen Embeddings vor, um kontinuierliche, reelle Richtungen und Reichweiten anzupassen. Mit PRPE entwerfen wir ein Polar Attention Module (PAM) als grundlegendes Modul für die Vision-Sprache-Fusion. Unser Ansatz erreicht eine deutliche Verbesserung von 11,4 Prozentpunkten im mAP auf dem anspruchsvollen A2D Sentences-Datensatz im Vergleich zur bisher besten Methode. Zudem erzielt unser Verfahren wettbewerbsfähige Ergebnisse auf dem J-HMDB Sentences-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp