Lipreading
Lippenlesen ist ein Prozess, bei dem Sprache durch die Beobachtung der Lippenbewegungen eines Sprechers im stummen Zustand extrahiert wird. Es ist eine wichtige Komponente der menschlichen Kommunikation, insbesondere für Menschen mit Hörbeeinträchtigungen von großem Wert. Tiefes Lippenlesen nutzt tiefe neuronale Netze, um Sprache aus stummen Videos zu extrahieren, was auch als visuelle Spracherkennung (VSR), maschinelles Lippenlesen oder automatisches Lippenlesen bezeichnet wird. Der Prozess besteht hauptsächlich aus zwei Stufen: einer zum Extrahieren visueller und zeitlicher Merkmale aus einer Folge von Videobildern und der anderen zum Verarbeiten dieser Merkmale in Spracheinheiten wie Buchstaben, Wörter oder Phrasen. Die Technologie des tiefen Lippenlesens kann in verschiedenen Bereichen angewendet werden, wodurch die Kommunikations-effizienz und -zugänglichkeit gesteigert werden.