SpotFast-Netzwerke mit speichererweiterter lateraler Transformer-Architektur für Lippenlesen

Diese Arbeit präsentiert eine neuartige Architektur für tiefes Lernen zur wortbasierten Lippenlesung. Frühere Arbeiten deuten auf das Potenzial hin, vortrainierte tiefere 3D-Faltungsneuronale Netze als Front-End-Feature-Extractor zu integrieren. Wir stellen SpotFast-Netzwerke vor, eine Variante der aktuellen State-of-the-Art-SlowFast-Netzwerke für Aktionserkennung, die einen zeitlichen Fensterpfad als „Spot“-Pfad und alle Frames als „Fast“-Pfad nutzt. Darüber hinaus integrieren wir speichergestützte laterale Transformer, um sequenzielle Merkmale für die Klassifikation zu erlernen. Das vorgeschlagene Modell wird auf dem LRW-Datensatz evaluiert. Die Experimente zeigen, dass das vorgeschlagene Modell verschiedene State-of-the-Art-Modelle übertrifft und die Einbindung der speichergestützten lateralen Transformer eine Verbesserung um 3,7 % gegenüber den SpotFast-Netzwerken ermöglicht.