Repräsentationswiederverwendung für die Echtzeit-Videoanalyse

Wir präsentieren StreamDEQ, eine Methode zur Schätzung von frame-weisen Darstellungen in Videos mit minimaler Rechenzeit pro Frame. Konventionelle tiefe Netzwerke führen bei fehlenden speziell angepassten Lösungen die Merkmalsextraktion von Grund auf für jeden Frame separat durch. Stattdessen zielen wir darauf ab, strömungsfähige Erkennungsmodelle zu entwickeln, die die zeitliche Glätte zwischen aufeinanderfolgenden Videoframes nativ ausnutzen können. Wir beobachten, dass kürzlich aufkommende implizite Schichtmodelle eine geeignete Grundlage für die Konstruktion solcher Modelle bieten, da sie Darstellungen als Fixpunkte flacher Netzwerke definieren, die mittels iterativer Methoden geschätzt werden müssen. Unser zentrales Insight besteht darin, die Inferenziterationen entlang der zeitlichen Achse zu verteilen, indem jeweils die aktuellste Darstellung als Startpunkt für die nächste Iteration verwendet wird. Dieses Verfahren nutzt die kürzlich durchgeführten Berechnungen effizient wieder aus und reduziert die benötigte Verarbeitungszeit erheblich. Durch umfangreiche experimentelle Analysen zeigen wir, dass StreamDEQ bereits innerhalb weniger Frames annähernd optimale Darstellungen erzeugen kann und während der gesamten Videodauer stets aktuelle Darstellungen aufrechterhält. Unsere Experimente zu videobasierter semantischer Segmentierung, videobasierter Objekterkennung und menschlicher Pose-Schätzung in Videos belegen, dass StreamDEQ eine vergleichbare Genauigkeit wie die Baseline erreicht, gleichzeitig aber mehr als 2- bis 4-fach schneller ist.