vor 8 Monaten

Zusammenfassung

Lippenlesung, auch bekannt als visuelle Spracherkennung, zielt darauf ab, den sprachlichen Inhalt aus Videos durch die Analyse der Lippendynamik zu erkennen. In den letzten Jahren gab es einige bemerkenswerte Fortschritte, die sich stark von der raschen Entwicklung tiefer Lernverfahren (deep learning) und den kürzlich veröffentlichten großen Lippenlesungsdatensätzen profitieren. Die meisten existierenden Methoden erzielten hohe Leistungen, indem sie komplexe neuronale Netze aufbauten und mehrere angepasste Trainingsstrategien einsetzten, die oft nur kurz beschrieben oder sogar nur im Quellcode gezeigt wurden. Wir stellen fest, dass eine angemessene Nutzung dieser Strategien stets erfreuliche Verbesserungen bringen kann, ohne das Modell wesentlich zu verändern. Angesichts der nicht zu vernachlässigenden Auswirkungen dieser Strategien und des bestehenden Schwierigkeitsgrades, ein effektives Lippenlesungsmodell zu trainieren, führen wir erstmals eine umfassende quantitative Studie und einen vergleichenden Analyseschritt durch, um die Effekte verschiedener Optionen für Lippenlesung zu zeigen. Durch einfache Anpassungen am Baseline-Prozess erreichen wir eine deutliche Leistungsverbesserung von 83,7 % auf 88,4 % und von 38,2 % auf 55,7 % auf den beiden größten öffentlich zugänglichen Lippenlesungsdatensätzen LRW und LRW-1000. Diese Ergebnisse sind vergleichbar mit und übertreffen in manchen Fällen die bisher besten bekannten Resultate.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Feng Dalu ; Yang Shuang ; Shan Shiguang ; Chen Xilin

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Feng Dalu ; Yang Shuang ; Shan Shiguang ; Chen Xilin

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Ein effektives Lippenlesmodell schmerzfrei erlernen | Paper | HyperAI

Command Palette

Ein effektives Lippenlesmodell schmerzfrei erlernen

Feng Dalu ; Yang Shuang ; Shan Shiguang ; Chen Xilin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein effektives Lippenlesmodell schmerzfrei erlernen

Feng Dalu ; Yang Shuang ; Shan Shiguang ; Chen Xilin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein effektives Lippenlesmodell schmerzfrei erlernen

Feng Dalu ; Yang Shuang ; Shan Shiguang ; Chen Xilin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters