HyperAI

Die Aufgabe der sprecherbezogenen Lippenbewegung-zu-Sprache-Synthese besteht darin, den Sprechstil und die Inhalte einer bestimmten Person oder einer sehr kleinen Gruppe von Personen durch das Training mit ihren Lippenbewegungsdaten präzise zu ermitteln. Diese Technologie kombiniert die neuesten Fortschritte im Bereich Computer Vision und Sprachsynthese, um eine hochpersonalisierte Umwandlung von Lippenbewegungen in Sprache zu ermöglichen. Sie hat erhebliche Anwendungswerte, wie zum Beispiel die Verbesserung der Videoanrufqualität, die Unterstützung der Kommunikation für Menschen mit Hörbeeinträchtigungen und die Steigerung der Virtual-Reality-Erfahrungen.

GRID corpus (mixed-speech)

Visual Voice Memory

TCD-TIMIT corpus (mixed-speech)