HyperAIHyperAI

Command Palette

Search for a command to run...

STC: Spatio-Temporal Contrastive Learning für die Video-Instanzsegmentierung

Zhengkai Jiang Zhangxuan Gu Jinlong Peng Hang Zhou Liang Liu Yabiao Wang Ying Tai Chengjie Wang Liqing Zhang

Zusammenfassung

Video-Instanzsegmentierung (VIS) ist eine Aufgabe, die gleichzeitig Klassifizierung, Segmentierung und Instanzzugehörigkeit in einem Video erfordert. Moderne VIS-Ansätze stützen sich auf komplexe Pipelines, um dieses Ziel zu erreichen, wobei beispielsweise RoI-bezogene Operationen oder 3D-Konvolutionen eingesetzt werden. Im Gegensatz dazu präsentieren wir einen einfachen und effizienten Ein-Stufe-VIS-Framework, der auf der Instanzsegmentierungsmethode CondInst basiert und um einen zusätzlichen Tracking-Kopf erweitert wurde. Um die Genauigkeit der Instanzzugehörigkeit zu verbessern, wird eine neuartige bidirektionale zeitraum- und räumlich-orientierte kontrastive Lernstrategie für Tracking-Embeddings über Frames hinweg vorgeschlagen. Zudem wird ein instanzbasiertes Konsistenzschema im Zeitverlauf eingesetzt, um zeitlich konsistente Ergebnisse zu erzeugen. Experimente auf den Datensätzen YouTube-VIS-2019, YouTube-VIS-2021 und OVIS-2021 bestätigen die Wirksamkeit und Effizienz des vorgeschlagenen Ansatzes. Wir hoffen, dass der vorgestellte Framework als einfache und leistungsstarke Alternative für zahlreiche andere Aufgaben der Instanz-level-Videozuordnung dienen kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp