HyperAIHyperAI

Command Palette

Search for a command to run...

Die Leistungsfähigkeit der unimodalen dynamischen Handgestenerkennung durch multimodales Training verbessern

Mahdi Abavisani Hamid Reza Vaezi Joze Vishal M. Patel

Zusammenfassung

Wir präsentieren einen effizienten Ansatz zur Nutzung des Wissens aus mehreren Modalitäten beim Training von unimodalen 3D-Faltungsneuralnetzen (3D-CNNs) für die Aufgabe der dynamischen Handgestenerkennung. Anstatt multimodale Informationen explizit zu kombinieren, was in vielen modernsten Methoden üblich ist, schlagen wir ein anderes Framework vor, in dem das Wissen aus mehreren Modalitäten in einzelnen Netzen eingebettet wird, sodass jedes unimodale Netzwerk eine verbesserte Leistung erzielen kann. Insbesondere weisen wir für jede verfügbare Modalität getrennte Netzwerke zu und zwingen diese zusammenzuarbeiten und gemeinsame Semantiken und bessere Darstellungen zu erlernen. Wir führen einen „raumzeitlichen semantischen Ausrichtungsverlust“ (SSA) ein, um den Inhalt der Merkmale aus verschiedenen Netzwerken auszurichten. Zudem regularisieren wir diesen Verlust mit unserem vorgeschlagenen „fokalen Regularisierungsparameter“, um eine negative Wissensübertragung zu vermeiden. Experimentelle Ergebnisse zeigen, dass unser Framework die Erkennungsgenauigkeit von unimodalen Netzwerken bei Testläufen verbessert und den Stand der Technik auf verschiedenen Datensätzen für dynamische Handgestenerkennung bietet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp