HyperAIHyperAI
vor 17 Tagen

Temporale Gedächtnis-Attention für die Video-Semantische Segmentierung

Hao Wang, Weining Wang, Jing Liu
Temporale Gedächtnis-Attention für die Video-Semantische Segmentierung
Abstract

Die semantische Segmentierung von Videos erfordert die Nutzung komplexer zeitlicher Beziehungen zwischen den Bildern einer Videosequenz. Bisherige Ansätze nutzen in der Regel präzise optische Flüsse, um diese zeitlichen Beziehungen auszunutzen, was jedoch mit hohem Rechenaufwand verbunden ist. In diesem Paper stellen wir ein Temporales Gedächtnis-Attention-Netzwerk (TMANet) vor, das auf Basis des Selbst-Attention-Mechanismus adaptiv langfristige zeitliche Beziehungen innerhalb einer Videosequenz integriert, ohne eine umfassende Vorhersage der optischen Flüsse durchzuführen. Insbesondere konstruieren wir ein Gedächtnis mittels mehrerer vorheriger Frames, um die zeitlichen Informationen des aktuellen Frames zu speichern. Anschließend schlagen wir ein temporales Gedächtnis-Attention-Modul vor, um die Beziehung zwischen dem aktuellen Frame und dem Gedächtnis zu erfassen und somit die Repräsentation des aktuellen Frames zu verbessern. Unsere Methode erreicht neue State-of-the-Art-Ergebnisse auf zwei anspruchsvollen Datensätzen zur semantischen Segmentierung von Videos, insbesondere 80,3 % mIoU auf Cityscapes und 76,5 % mIoU auf CamVid mit ResNet-50.

Temporale Gedächtnis-Attention für die Video-Semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI