HyperAIHyperAI

Command Palette

Search for a command to run...

Crossover Learning für schnelle Online-Video-Instanzsegmentierung

Shusheng Yang Yuxin Fang Xinggang Wang Yu Li Chen Fang Ying Shan Bin Feng Wenyu Liu

Zusammenfassung

Die Modellierung des zeitlichen visuellen Kontexts über mehrere Frames ist entscheidend für die Video-Instance-Segmentation (VIS) und andere Aufgaben des Video-Verständnisses. In diesem Paper stellen wir ein schnelles Online-VIS-Modell namens CrossVIS vor. Für die Modellierung zeitlicher Informationen in der VIS präsentieren wir ein neuartiges Crossover-Lernverfahren, das die Instanzmerkmale des aktuellen Frames nutzt, um die gleiche Instanz in anderen Frames pixelgenau zu lokalisieren. Im Gegensatz zu früheren Ansätzen erfordert das Crossover-Lernen keine zusätzlichen Netzwerkparameter zur Merkmalsverbesserung. Durch die Integration mit dem Instanz-Segmentierungsverlust ermöglicht es eine effiziente Lernung von Instanz-zu-Pixel-Beziehungen über Frames hinweg und führt zu einer kostenfreien Verbesserung während der Inferenz. Zudem wird ein global ausgewogener Instanz-Embedding-Zweig vorgeschlagen, um eine genauere und stabilere Online-Instanz-Zuordnung zu erreichen. Wir führen umfangreiche Experimente auf drei anspruchsvollen VIS-Benchmarks durch, nämlich YouTube-VIS-2019, OVIS und YouTube-VIS-2021, um unsere Methode zu evaluieren. Soweit uns bekannt ist, erreicht CrossVIS die bisher beste Leistung unter allen Online-VIS-Methoden und zeigt ein solides Gleichgewicht zwischen Latenz und Genauigkeit. Der Quellcode wird zur Förderung zukünftiger Forschung verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Crossover Learning für schnelle Online-Video-Instanzsegmentierung | Paper | HyperAI