HyperAIHyperAI
vor 17 Tagen

Mehrschichtige Darstellungslernung mit semantischer Ausrichtung für die Bezugsvideobjektssegmentierung

{Jianbing Shen, Ling Shao, Xingping Dong, Dongming Wu}
Mehrschichtige Darstellungslernung mit semantischer Ausrichtung für die Bezugsvideobjektssegmentierung
Abstract

Referenzbasierte Videoobjektsegmentierung (Referring Video Object Segmentation, RVOS) ist eine anspruchsvolle, sprachgesteuerte Video-Grundlagenaufgabe, die eine umfassende Verständnis der semantischen Informationen sowohl des Videoinhalts als auch der Sprachanfragen erfordert, um Objekte präzise vorherzusagen. Bisherige Ansätze setzen jedoch eine multimodale Fusion auf der Ebene einzelner Frames mit räumlicher Granularität ein. Die Beschränkung der visuellen Repräsentation führt häufig zu einer Diskrepanz zwischen Vision und Sprache und resultiert in schlechten Segmentierungsergebnissen. Um dieses Problem zu lösen, schlagen wir einen neuartigen Ansatz zur mehrstufigen Repräsentationslernung vor, der die inhärente Struktur des Videoinhalts ausnutzt, um eine Reihe diskriminativer visueller Embeddings bereitzustellen und somit eine effektivere semantische Ausrichtung zwischen Vision und Sprache zu ermöglichen. Konkret integrieren wir verschiedene visuelle Hinweise auf unterschiedlichen Granularitätsstufen: langzeitliche, mehrframe-orientierte Informationen auf Videoebene, räumliche Semantik innerhalb einzelner Frames auf Frame-Ebene sowie verfeinerte objektbezogene Merkmalsvorwissen auf Objektebene. Durch die starke mehrstufige visuelle Repräsentation und eine sorgfältig entworfene dynamische Ausrichtung kann unser Modell eine robuste Repräsentation für eine präzise Videoobjektsegmentierung erzeugen. Ausführliche Experimente auf den Datensätzen Refer-DAVIS_17 und Refer-YouTube-VOS zeigen, dass unser Modell sowohl in Bezug auf Segmentierungsgenauigkeit als auch auf Inferenzgeschwindigkeit eine überlegene Leistung erzielt.

Mehrschichtige Darstellungslernung mit semantischer Ausrichtung für die Bezugsvideobjektssegmentierung | Neueste Forschungsarbeiten | HyperAI