HyperAIHyperAI

Command Palette

Search for a command to run...

SpotFast-Netzwerke mit speichererweiterter lateraler Transformer-Architektur für Lippenlesen

Peratham Wiriyathammabhum

Zusammenfassung

Diese Arbeit präsentiert eine neuartige Architektur für tiefes Lernen zur wortbasierten Lippenlesung. Frühere Arbeiten deuten auf das Potenzial hin, vortrainierte tiefere 3D-Faltungsneuronale Netze als Front-End-Feature-Extractor zu integrieren. Wir stellen SpotFast-Netzwerke vor, eine Variante der aktuellen State-of-the-Art-SlowFast-Netzwerke für Aktionserkennung, die einen zeitlichen Fensterpfad als „Spot“-Pfad und alle Frames als „Fast“-Pfad nutzt. Darüber hinaus integrieren wir speichergestützte laterale Transformer, um sequenzielle Merkmale für die Klassifikation zu erlernen. Das vorgeschlagene Modell wird auf dem LRW-Datensatz evaluiert. Die Experimente zeigen, dass das vorgeschlagene Modell verschiedene State-of-the-Art-Modelle übertrifft und die Einbindung der speichergestützten lateralen Transformer eine Verbesserung um 3,7 % gegenüber den SpotFast-Netzwerken ermöglicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp