HyperAIHyperAI
vor 2 Monaten

Tube-Link: Ein flexibles Cross-Tube-Framework für universelle Video-Segmentation

Xiangtai Li; Haobo Yuan; Wenwei Zhang; Guangliang Cheng; Jiangmiao Pang; Chen Change Loy
Tube-Link: Ein flexibles Cross-Tube-Framework für universelle Video-Segmentation
Abstract

Die Video-Segmentierung zielt darauf ab, jedes Pixel in verschiedenen Szenarien genauer zu segmentieren und zu verfolgen. In dieser Arbeit stellen wir Tube-Link vor, ein vielseitiges Framework, das mehrere Kernaufgaben der Video-Segmentierung mit einer einheitlichen Architektur löst. Unser Framework ist eine fast online-basierte Methode, die einen kurzen Unterabschnitt als Eingabe verwendet und die entsprechenden räumlich-zeitlichen Tubenmasken ausgibt. Um das Modellieren von Tubenbeziehungen zu verbessern, schlagen wir einen effektiven Ansatz vor, um Tubenverlinkung auf Abfragenebene durch Aufmerksamkeit (attention) durchzuführen. Darüber hinaus führen wir zeitliches kontrastives Lernen ein, um instanzweise diskriminative Merkmale für die Tubenverbindung zu generieren. Unser Ansatz bietet Flexibilität und Effizienz sowohl für kurze als auch für lange Videoeingaben, da die Länge jedes Unterabschnitts je nach den Anforderungen der Datensätze oder Szenarien variiert werden kann. Tube-Link übertrifft bestehende spezialisierte Architekturen erheblich in fünf Video-Segmentierungsdatensätzen. Insbesondere erreicht es fast 13% relative Verbesserungen im VIPSeg-Datensatz und 4% Verbesserungen im KITTI-STEP-Datensatz gegenüber dem starken Baseline-Modell Video K-Net. Bei Verwendung eines ResNet50-Rückgratnetzes auf Youtube-VIS-2019 und 2021 steigert Tube-Link IDOL um 3% bzw. 4%.

Tube-Link: Ein flexibles Cross-Tube-Framework für universelle Video-Segmentation | Neueste Forschungsarbeiten | HyperAI