HyperAIHyperAI

Command Palette

Search for a command to run...

Späte zeitliche Modellierung in 3D-CNN-Architekturen mit BERT für die Aktionserkennung

M. Esat Kalfaoglu Sinan Kalkan A. Aydin Alatan

Zusammenfassung

In dieser Arbeit kombinieren wir 3D-Konvolutionen mit einer späten zeitlichen Modellierung zur Aktenerkennung. Dazu ersetzen wir die herkömmliche Temporal Global Average Pooling (TGAP)-Schicht am Ende des 3D-Konvolutionsarchitektur durch eine Bidirektionale Encoder-Repräsentationen aus Transformers (BERT)-Schicht, um die zeitlichen Informationen mittels des Aufmerksamkeitsmechanismus von BERT effizienter auszunutzen. Wir zeigen, dass diese Ersetzung die Leistung vieler etablierter 3D-Konvolutionsarchitekturen für die Aktenerkennung verbessert, darunter ResNeXt, I3D, SlowFast und R(2+1)D. Zudem erzielen wir state-of-the-art-Ergebnisse auf den Datensätzen HMDB51 und UCF101 mit jeweils 85,10 % und 98,69 % Top-1-Accuracy. Der Quellcode ist öffentlich verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp