Spracherkennung auf der Basis von Audio-Visual und reguliertem Transformer mit einer spatio-temporalen Fusionsstrategie für Fahrerassistenzsysteme
Dieser Artikel präsentiert eine Forschungsmethode für audio-visuelle Spracherkennung (AVSR) in Fahrerassistenzsystemen. Diese Systeme erfordern eine kontinuierliche Interaktion mit dem Fahrer während der Fahrt über Sprachsteuerung aus Sicherheitsgründen. Der Artikel stellt einen neuartigen Audio-Visual-Sprachbefehls-Erkennungs-Transformer (AVCRFormer) vor, der speziell für eine robuste AVSR entwickelt wurde. Wir schlagen vor: (i) eine multimodale Fusionsstrategie basierend auf der spatio-temporalen Fusion von Audio- und Videofeatures, (ii) einen regulierten Transformer, der auf einem iterativen Modellverfeinerungsmodul mit mehreren Encodern basiert, sowie (iii) eine Klassifikator-Ensemble-Strategie, die auf mehreren Decodern aufbaut. Die spatio-temporale Fusionsstrategie bewahrt die Kontextinformation beider Modalitäten und erreicht deren Synchronisation. Das vorgeschlagene iterative Modellverfeinerungsmodul kann die Lücke zwischen akustischen und visuellen Daten schließen, indem es deren Einfluss auf die Genauigkeit der Spracherkennung nutzt. Die vorgeschlagene Multi-Prediction-Strategie zeigt im Vergleich zu traditionellen Single-Prediction-Strategien eine überlegene Leistung und demonstriert die Anpassungsfähigkeit des Modells in vielfältigen audio-visuellen Kontexten. Der vorgestellte Transformer erreicht die höchsten Werte der Sprachbefehls-Erkennungsgenauigkeit mit 98,87 % auf dem RUSAVIC-Datensatz und 98,81 % auf dem LRW-Datensatz. Diese Forschung hat bedeutende Implikationen für die Weiterentwicklung der Mensch-Computer-Interaktion. Die Fähigkeiten des AVCRFormer reichen über die reine AVSR hinaus und machen ihn zu einem wertvollen Beitrag an der Schnittstelle zwischen audio-visueller Verarbeitung und künstlicher Intelligenz.