vor 7 Monaten

Zusammenfassung

Das Ziel dieser Arbeit besteht darin, Phrasen und Sätze zu erkennen, die von einem sprechenden Gesicht ausgesprochen werden, mit oder ohne Audio. Im Gegensatz zu früheren Arbeiten, die sich auf die Erkennung einer begrenzten Anzahl von Wörtern oder Phrasen konzentriert haben, behandeln wir das Lippenlesen als ein offenes Problem – unbeschränkte natürliche Sprachsätze und Videos im echten Leben.Unsere wesentlichen Beiträge sind: (1) ein „Watch, Listen, Attend and Spell“ (WLAS)-Netzwerk, das lernt, Videos von Mundbewegungen in Buchstaben zu transkribieren; (2) eine Curriculum-Lernstrategie zur Beschleunigung des Trainings und zur Reduzierung des Überanpassens; (3) ein „Lip Reading Sentences“ (LRS)-Datensatz für visuelle Spracherkennung, der über 100.000 natürliche Sätze aus britischen Fernsehsendungen umfasst.Das auf dem LRS-Datensatz trainierte WLAS-Modell übertreffen die Leistung aller früheren Arbeiten auf standardisierten Lippenlese-Benchmark-Datensätzen oft deutlich. Diese Lippenleseleistung übertrifft sogar die eines professionellen Lippenlesers bei Videos vom BBC-Fernsehen, und wir zeigen auch, dass visuelle Informationen dazu beitragen, die Spracherkennungsleistung zu verbessern, selbst wenn das Audio verfügbar ist.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Videobegreifen

Multimodal

Audio- Und Sprachverarbeitung

Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Videobegreifen

Multimodal

Audio- Und Sprachverarbeitung

Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Lip Reading Sentences in the Wild Lippenlesen von Sätzen im Freien | Paper | HyperAI

Command Palette

Lip Reading Sentences in the Wild Lippenlesen von Sätzen im Freien

Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lip Reading Sentences in the Wild Lippenlesen von Sätzen im Freien

Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lip Reading Sentences in the Wild Lippenlesen von Sätzen im Freien

Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters