Lernen lokaler und globaler zeitlicher Kontexte für die Video-Semantiksegmentierung

Kontextuelle Informationen spielen eine zentrale Rolle bei der semantischen Segmentierung von Videos (Video Semantic Segmentation, VSS). In diesem Artikel werden Kontexte für VSS in zweifacher Hinsicht zusammengefasst: lokale zeitliche Kontexte (Local Temporal Contexts, LTC), die aus benachbarten Bildern stammen, und globale zeitliche Kontexte (Global Temporal Contexts, GTC), die den Kontext aus dem gesamten Video repräsentieren. Im Hinblick auf LTC umfassen diese statische und bewegte Kontexte, die jeweils statische und bewegte Inhalte in benachbarten Bildern beschreiben. Bisher wurden sowohl statische als auch bewegte Kontexte untersucht. Es gibt jedoch bisher keine Forschung, die gleichzeitig die Lernung beider Kontexttypen (die sich stark ergänzen) behandelt. Daher schlagen wir eine Coarse-to-Fine Feature Mining (CFFM)-Technik vor, um eine einheitliche Darstellung der LTC zu erlernen. CFFM besteht aus zwei Komponenten: Coarse-to-Fine Feature Assembling (CFFA) und Cross-frame Feature Mining (CFM). CFFA extrahiert statische und bewegte Kontexte, während CFM nützliche Informationen aus benachbarten Bildern gewinnt, um die Zielmerkmale zu verbessern. Um zusätzliche zeitliche Kontexte weiter auszunutzen, erweitern wir CFFM zu CFFM++, indem wir zusätzlich GTC aus dem gesamten Video lernen. Konkret werden bestimmte Bilder gleichmäßig aus dem Video entnommen und durch k-Means globale kontextuelle Prototypen extrahiert. Die in diesen Prototypen enthaltenen Informationen werden durch CFM weiter analysiert, um die Zielmerkmale zu verfeinern. Experimentelle Ergebnisse auf etablierten Benchmarks zeigen, dass CFFM und CFFM++ gegenüber aktuellen State-of-the-Art-Methoden gut abschneiden. Der Quellcode ist unter https://github.com/GuoleiSun/VSS-CFFM verfügbar.