HyperAIHyperAI

Command Palette

Search for a command to run...

Halluzinierende IDT Deskriptoren und I3D Optischer Flussmerkmale für Aktionserkennung mit CNNs

Lei Wang; Piotr Koniusz; Du Q. Huynh

Zusammenfassung

In dieser Arbeit beleben wir die Verwendung traditioneller, manuell gestalteter Video-Darstellungen für die Aktionserkennung und verleihen diesen Techniken durch einen CNN-basierten Halluzinationschritt neues Leben. Trotz der Verwendung von RGB- und Optischen-Fluss-Bildern prosperiert das I3D-Modell (unter anderem) durch die Kombination seines Outputs mit den Verbesserten Dichten Trajektorien (IDT) und den daraus extrahierten niedrigstufigen Videodeskriptoren, die mittels Bag-of-Words (BoW) und Fisher-Vektoren (FV) kodiert werden. Eine solche Fusion von CNNs und manuell gestalteten Darstellungen ist aufwendig, da sie Vorverarbeitung, Deskriptorextraktion, Kodierung und Parameteranpassung erfordert. Daher schlagen wir ein end-to-end trainierbares Netzwerk vor, das Ströme besitzt, welche während des Trainingsprozesses die IDT-basierten BoW/FV-Darstellungen lernen und einfach in das I3D-Modell integriert werden können. Insbesondere nimmt jeder Stream die I3D-Featuremaps vor der letzten 1D-Faltungsschicht entgegen und lernt, diese Maps in BoW/FV-Darstellungen zu „übersetzen“. Dadurch kann unser Modell bei der Testphase halluzinierte und synthetisierte BoW/FV-Darstellungen verwenden. Wir zeigen, dass sogar die Features des gesamten I3D-Optischen-Fluss-Streams halluziniert werden können, was den Prozess vereinfacht. Unser Modell spart 20-55 Stunden Rechenzeit und erzielt Stand-of-the-Art-Ergebnisse auf vier öffentlich zugänglichen Datensätzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Halluzinierende IDT Deskriptoren und I3D Optischer Flussmerkmale für Aktionserkennung mit CNNs | Paper | HyperAI