HyperAIHyperAI

Command Palette

Search for a command to run...

URVOS: Unified Referring Video Object Segmentation Network mit einer großskaligen Benchmark

Joon-Young Lee Seonguk Seo Bohyung Han

Zusammenfassung

Wir schlagen ein einheitliches Netzwerk für die Bezugsauszeichnung von Objekten in Videos (URVOS) vor. URVOS nimmt ein Video und eine sprachliche Beschreibung als Eingaben entgegen und schätzt die in den einzelnen Videoframes durch die gegebene Sprachexpression gemeinten {Objektmasken} ab. Unser Algorithmus löst dieses anspruchsvolle Problem, indem er sprachbasierte Objektauszeichnung und Maskenpropagation gemeinsam mit einem einzigen tiefen neuronalen Netzwerk durchführt, wobei zwei Aufmerksamkeitsmodelle geschickt kombiniert werden. Zudem erstellen wir die erste großskalige Datensammlung für die Bezugsauszeichnung von Objekten in Videos, die wir Refer-Youtube-VOS nennen. Wir evaluieren unser Modell an zwei Benchmark-Datensätzen, einschließlich unseres eigenen, und belegen die Wirksamkeit des vorgeschlagenen Ansatzes. Die Datensammlung wird unter url{https://github.com/skynbe/Refer-Youtube-VOS} veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
URVOS: Unified Referring Video Object Segmentation Network mit einer großskaligen Benchmark | Paper | HyperAI