Lernen, wo man sich konzentrieren soll, für eine effiziente Video-Objekterkennung

Die Übertragung bestehender bildbasierter Detektoren auf Videos ist nicht trivial, da die Bildqualität durch Teilausblendung, seltene Körperhaltungen und Bewegungsunschärfe stets beeinträchtigt wird. Bisherige Ansätze nutzen optische Fluss-Warping, um Merkmale über Videoframes hinweg zu propagieren und zu aggregieren. Die direkte Anwendung von bildbasierten optischen Flüssen auf hochlevel-Features kann jedoch keine genauen räumlichen Korrespondenzen herstellen. Daher wird ein neuartiges Modul namens Learnable Spatio-Temporal Sampling (LSTS) vorgestellt, das semantische Korrespondenzen zwischen benachbarten Frame-Features präzise lernt. Die abgefragten Positionen werden zunächst zufällig initialisiert und anschließend iterativ aktualisiert, um progressive Verbesserungen der räumlichen Korrespondenzen unter Anleitung der Detektionsüberwachung zu erreichen. Zusätzlich werden das Sparsely Recursive Feature Updating (SRFU)-Modul und das Dense Feature Aggregation (DFA)-Modul eingeführt, um zeitliche Beziehungen zu modellieren bzw. die Merkmale pro Frame zu verstärken. Ohne zusätzliche Komplexitäten erreicht der vorgeschlagene Ansatz eine state-of-the-art-Leistung auf dem ImageNet VID-Datensatz mit geringerem Rechenaufwand und Echtzeitgeschwindigkeit. Der Quellcode wird unter https://github.com/jiangzhengkai/LSTS bereitgestellt.