HyperAIHyperAI
vor 2 Monaten

Video K-Net: Eine einfache, starke und einheitliche Baseline für die Video-Segmentierung

Xiangtai Li; Wenwei Zhang; Jiangmiao Pang; Kai Chen; Guangliang Cheng; Yunhai Tong; Chen Change Loy
Video K-Net: Eine einfache, starke und einheitliche Baseline für die Video-Segmentierung
Abstract

Dieses Papier stellt Video K-Net vor, einen einfachen, leistungsfähigen und einheitlichen Rahmen für die vollständig end-to-end Video-Panoramasegmentierung. Die Methode basiert auf K-Net, einem Ansatz, der die Bildsegmentierung durch eine Gruppe von lernfähigen Kerneln vereint. Wir beobachten, dass diese lernfähigen Kerne aus K-Net, die Objekt-Erscheinungen und -Kontexte kodieren, identische Instanzen über Videoframes hinweg natürlich verbinden können. Angeregt durch diese Beobachtung lernt Video K-Net gleichzeitig "Dinge" (things) und "Stoff" (stuff) in einem Video zu segmentieren und zu verfolgen, wobei es sich auf eine einfache kernelbasierte Erscheinungsmodellierung und zeitliche Kerneinteraktion stützt. Trotz seiner Einfachheit erzielt es standesüberragende Ergebnisse in der Video-Panoramasegmentierung auf Cityscapes-VPS, KITTI-STEP und VIPSeg ohne zusätzliche Verfeinerungen. Insbesondere bei KITTI-STEP kann die einfache Methode fast 12 % relative Verbesserungen im Vergleich zu früheren Methoden erreichen. Bei VIPSeg führt Video K-Net fast 15 % relative Verbesserungen zu und erreicht einen VPQ von 39,8 %. Wir validieren auch seine Generalisierungsfähigkeit bei der videosemantischen Segmentierung, wo wir verschiedene Baselines um 2 % auf dem VSPW-Datensatz verbessern. Darüber hinaus erweitern wir K-Net zu einem clipbasierten Videoraumwerkzeug für die videoinstanzbasierte Segmentierung, wobei wir mit einem ResNet50-Rückenboniereinen mAP von 40,5 % und mit einem Swin-Basisrückenbone einen mAP von 54,1 % auf dem YouTube-2019 Validierungsdatensatz erzielen. Wir hoffen, dass diese einfache aber effektive Methode als neue, flexible Baseline in der einheitlichen Videosegmentierungsdesign dienen kann. Der Quellcode und die Modelle werden unter https://github.com/lxtGH/Video-K-Net veröffentlicht.请注意,这里有一些术语在德语中没有完全对应的翻译,因此我保留了英文原词并加上了德语注释以帮助理解。例如,“things” 和 “stuff” 在视频全景分割中分别指代“物体”和“背景”,但为了保持信息的完整性,我在翻译时保留了英文原词并在后面加了德语注释。此外,“backbone” 在神经网络中通常指的是主干网络,我将其翻译为“Rückenbone”。如果您有其他建议或需要进一步调整,请告诉我。

Video K-Net: Eine einfache, starke und einheitliche Baseline für die Video-Segmentierung | Neueste Forschungsarbeiten | HyperAI