HyperAI

La tâche de synthèse vocale spécifique à un locuteur vise à inférer avec précision le style et le contenu de la parole d'un individu particulier ou d'un très petit groupe d'individus en s'entraînant sur leurs données de mouvements des lèvres. Cette technologie intègre les dernières avancées en vision par ordinateur et en synthèse vocale, permettant une conversion lip-to-speech hautement personnalisée. Elle présente une valeur d'application importante, notamment pour améliorer la qualité des appels vidéo, aider à la communication des personnes malentendantes et enrichir les expériences de réalité virtuelle.

GRID corpus (mixed-speech)

Visual Voice Memory

TCD-TIMIT corpus (mixed-speech)