Extraktion von Beziehungen zwischen über-frame-affinen Zusammenhängen für die Video-Semantiksegmentierung

Die Essenz der videosemantischen Segmentierung (VSS) liegt darin, wie zeitliche Informationen zur Vorhersage effektiv genutzt werden können. Bisherige Ansätze konzentrieren sich hauptsächlich auf die Entwicklung neuer Techniken zur Berechnung von Affinitäten zwischen Bildern (cross-frame affinities), wie beispielsweise optischer Fluss oder Aufmerksamkeitsmechanismen. Im Gegensatz dazu tragen wir von einem anderen Blickwinkel bei, indem wir Beziehungen zwischen diesen Affinitäten erschließen, wodurch eine verbesserte Aggregation zeitlicher Informationen ermöglicht wird. Wir untersuchen die Beziehungen zwischen Affinitäten in zwei Aspekten: einheitliche intrinsische Korrelationen auf einzelner Skala und mehrskalige Beziehungen. Inspiriert durch traditionelle Merkmalsverarbeitungsmethoden schlagen wir die Single-scale Affinity Refinement (SAR) und die Multi-scale Affinity Aggregation (MAA) vor. Um die Durchführbarkeit von MAA zu gewährleisten, führen wir eine Selective Token Masking (STM)-Strategie ein, die eine Teilmenge konsistenter Referenz-Token für verschiedene Skalen bei der Berechnung von Affinitäten auswählt, wodurch zudem die Effizienz unseres Ansatzes erhöht wird. Schließlich werden die durch SAR und MAA verstärkten Affinitäten genutzt, um die zeitliche Information adaptiv zu aggregieren. Unsere Experimente zeigen, dass der vorgeschlagene Ansatz gegenüber aktuellen State-of-the-Art-Methoden für VSS überzeugt. Der Quellcode ist öffentlich unter https://github.com/GuoleiSun/VSS-MRCFA verfügbar.