HyperAIHyperAI

Command Palette

Search for a command to run...

Ein effektives Lippenlesmodell schmerzfrei erlernen

Feng Dalu ; Yang Shuang ; Shan Shiguang ; Chen Xilin

Zusammenfassung

Lippenlesung, auch bekannt als visuelle Spracherkennung, zielt darauf ab, den sprachlichen Inhalt aus Videos durch die Analyse der Lippendynamik zu erkennen. In den letzten Jahren gab es einige bemerkenswerte Fortschritte, die sich stark von der raschen Entwicklung tiefer Lernverfahren (deep learning) und den kürzlich veröffentlichten großen Lippenlesungsdatensätzen profitieren. Die meisten existierenden Methoden erzielten hohe Leistungen, indem sie komplexe neuronale Netze aufbauten und mehrere angepasste Trainingsstrategien einsetzten, die oft nur kurz beschrieben oder sogar nur im Quellcode gezeigt wurden. Wir stellen fest, dass eine angemessene Nutzung dieser Strategien stets erfreuliche Verbesserungen bringen kann, ohne das Modell wesentlich zu verändern. Angesichts der nicht zu vernachlässigenden Auswirkungen dieser Strategien und des bestehenden Schwierigkeitsgrades, ein effektives Lippenlesungsmodell zu trainieren, führen wir erstmals eine umfassende quantitative Studie und einen vergleichenden Analyseschritt durch, um die Effekte verschiedener Optionen für Lippenlesung zu zeigen. Durch einfache Anpassungen am Baseline-Prozess erreichen wir eine deutliche Leistungsverbesserung von 83,7 % auf 88,4 % und von 38,2 % auf 55,7 % auf den beiden größten öffentlich zugänglichen Lippenlesungsdatensätzen LRW und LRW-1000. Diese Ergebnisse sind vergleichbar mit und übertreffen in manchen Fällen die bisher besten bekannten Resultate.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein effektives Lippenlesmodell schmerzfrei erlernen | Paper | HyperAI