HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle Spracherkennung in einem Fahrerassistenzsystem

Alexey Karpov Alexandr Axyonov Alexey Kashevnik Dmitry Ryumin Denis Ivanko

Zusammenfassung

Die visuelle Spracherkennung oder automatisierte Lippenlesung ist ein Bereich wachsender Aufmerksamkeit. Videodaten haben ihre Nützlichkeit in der multimodalen Spracherkennung bewiesen, insbesondere dann, wenn akustische Daten stark verrauscht oder gar nicht verfügbar sind. In diesem Artikel präsentieren wir eine neuartige Methode zur visuellen Spracherkennung. Wir evaluieren sie anhand des bekannten LRW-Lippenlesedatensatzes und erreichen dabei eine bessere Leistung als bestehende Ansätze. Nach einer umfassenden Bewertung adaptieren wir die entwickelte Methode und testen sie anhand des von uns im Freien aufgezeichneten RUSAVIC-Korpus, das speziell für Fahrzeugführer erfasst wurde. Die erzielten Ergebnisse belegen nicht nur die hohe Leistungsfähigkeit der vorgeschlagenen Methode, sondern auch die grundsätzliche Möglichkeit, Sprache ausschließlich anhand der Videomodalität zu erkennen – selbst unter schwierigen natürlichen Bedingungen wie dem Fahren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Visuelle Spracherkennung in einem Fahrerassistenzsystem | Paper | HyperAI