HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrschichtige Darstellungslernung mit semantischer Ausrichtung für die Bezugsvideobjektssegmentierung

Jianbing Shen Ling Shao Xingping Dong Dongming Wu

Zusammenfassung

Referenzbasierte Videoobjektsegmentierung (Referring Video Object Segmentation, RVOS) ist eine anspruchsvolle, sprachgesteuerte Video-Grundlagenaufgabe, die eine umfassende Verständnis der semantischen Informationen sowohl des Videoinhalts als auch der Sprachanfragen erfordert, um Objekte präzise vorherzusagen. Bisherige Ansätze setzen jedoch eine multimodale Fusion auf der Ebene einzelner Frames mit räumlicher Granularität ein. Die Beschränkung der visuellen Repräsentation führt häufig zu einer Diskrepanz zwischen Vision und Sprache und resultiert in schlechten Segmentierungsergebnissen. Um dieses Problem zu lösen, schlagen wir einen neuartigen Ansatz zur mehrstufigen Repräsentationslernung vor, der die inhärente Struktur des Videoinhalts ausnutzt, um eine Reihe diskriminativer visueller Embeddings bereitzustellen und somit eine effektivere semantische Ausrichtung zwischen Vision und Sprache zu ermöglichen. Konkret integrieren wir verschiedene visuelle Hinweise auf unterschiedlichen Granularitätsstufen: langzeitliche, mehrframe-orientierte Informationen auf Videoebene, räumliche Semantik innerhalb einzelner Frames auf Frame-Ebene sowie verfeinerte objektbezogene Merkmalsvorwissen auf Objektebene. Durch die starke mehrstufige visuelle Repräsentation und eine sorgfältig entworfene dynamische Ausrichtung kann unser Modell eine robuste Repräsentation für eine präzise Videoobjektsegmentierung erzeugen. Ausführliche Experimente auf den Datensätzen Refer-DAVIS_17 und Refer-YouTube-VOS zeigen, dass unser Modell sowohl in Bezug auf Segmentierungsgenauigkeit als auch auf Inferenzgeschwindigkeit eine überlegene Leistung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mehrschichtige Darstellungslernung mit semantischer Ausrichtung für die Bezugsvideobjektssegmentierung | Paper | HyperAI