HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen, wo man sich konzentrieren soll, für eine effiziente Video-Objekterkennung

Zhengkai Jiang Yu Liu Ceyuan Yang Jihao Liu Peng Gao Qian Zhang Shiming Xiang Chunhong Pan

Zusammenfassung

Die Übertragung bestehender bildbasierter Detektoren auf Videos ist nicht trivial, da die Bildqualität durch Teilausblendung, seltene Körperhaltungen und Bewegungsunschärfe stets beeinträchtigt wird. Bisherige Ansätze nutzen optische Fluss-Warping, um Merkmale über Videoframes hinweg zu propagieren und zu aggregieren. Die direkte Anwendung von bildbasierten optischen Flüssen auf hochlevel-Features kann jedoch keine genauen räumlichen Korrespondenzen herstellen. Daher wird ein neuartiges Modul namens Learnable Spatio-Temporal Sampling (LSTS) vorgestellt, das semantische Korrespondenzen zwischen benachbarten Frame-Features präzise lernt. Die abgefragten Positionen werden zunächst zufällig initialisiert und anschließend iterativ aktualisiert, um progressive Verbesserungen der räumlichen Korrespondenzen unter Anleitung der Detektionsüberwachung zu erreichen. Zusätzlich werden das Sparsely Recursive Feature Updating (SRFU)-Modul und das Dense Feature Aggregation (DFA)-Modul eingeführt, um zeitliche Beziehungen zu modellieren bzw. die Merkmale pro Frame zu verstärken. Ohne zusätzliche Komplexitäten erreicht der vorgeschlagene Ansatz eine state-of-the-art-Leistung auf dem ImageNet VID-Datensatz mit geringerem Rechenaufwand und Echtzeitgeschwindigkeit. Der Quellcode wird unter https://github.com/jiangzhengkai/LSTS bereitgestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen, wo man sich konzentrieren soll, für eine effiziente Video-Objekterkennung | Paper | HyperAI