HyperAIHyperAI

Command Palette

Search for a command to run...

Effiziente Daten-Video-Transformer für die Gewaltdetektion

almamon rasool abdali

Zusammenfassung

In intelligent Städten ist die Erkennung von Gewaltereignissen entscheidend für die Sicherheit der Stadt. Mehrere Studien zu diesem Thema haben sich auf die 2D-Convolutional Neural Network (2D-CNN) konzentriert, um räumliche Merkmale aus jedem Frame zu extrahieren, gefolgt von einer Variante des rekurrenten neuronalen Netzes (RNN) als Methode zur Lernung zeitlicher Merkmale. Andererseits haben Transformer-Netzwerke in vielen Bereichen hervorragende Ergebnisse erzielt. Der Hauptnachteil von Transformer-Modellen liegt in der Notwendigkeit großer Datensätze, um gute Leistungen zu erzielen. In dieser Arbeit schlagen wir einen dateneffizienten Video-Transformer (DeVTr) basierend auf dem Transformer-Netzwerk als spatio-temporale Lernmethode vor, wobei ein vortrainiertes 2D-Convolutional Neural Network (2D-CNN) als Embedding-Schicht für die Eingabedaten dient. Das Modell wurde anhand des Real-life Violence Dataset (RLVS) trainiert und getestet und erreichte eine Genauigkeit von 96,25 %. Ein Vergleich der Ergebnisse der vorgeschlagenen Methode mit bisherigen Ansätzen zeigt, dass die vorgeschlagene Methode im Vergleich zu allen anderen Studien zur Erkennung von Gewaltereignissen die bestmögliche Leistung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Effiziente Daten-Video-Transformer für die Gewaltdetektion | Paper | HyperAI