Qui Voudrait Vivre Dans Un Futur Où Votre Voix Serait Parfaitement Imitée Par L’ia ?

Ne vous inquiétez pas, la technologie n’est pas encore très convaincante…
Euh, mais je me sens toujours un peu mal à l’aise.
Selon un article publié par des chercheurs de Baidu, un logiciel d’IA peut imiter la voix d’une personne comme celle d’un étourneau en l’écoutant simplement plusieurs fois.
Si la technologie est perfectionnée, elle pourrait être utilisée pour générer de faux clips audio dans lesquels les gens disent des choses qu’ils n’ont jamais réellement dites.
Est-ce que cela vous fait un peu peur ?
L'équipe d'IA de Baidu est bien connue pour son travail de développement d'un discours réaliste. Un projet de recherche récent publié récemment montre comment un modèle peut apprendre les caractéristiques de la voix d'une personne et générer du contenu que la personne n'a jamais dit.
Cependant, les meilleures versions des clips produits à partir du modèle étaient encore très bruyantes et de qualité inférieure au discours original. Mais le « système de clonage neuronal » développé par les chercheurs a réussi à conserver l’accent britannique et à produire un son assez similaire.
Il existe deux approches différentes pour construire un système de clonage neuronal : l’adaptation du locuteur et l’encodage du locuteur.
La technologie d’adaptation du langage parlé implique de former le modèle avec différentes personnes parlant avec des voix différentes. L’équipe a réalisé cela en utilisant la base de données LibriSpeech, qui contient 2 484 sources vocales différentes. Le système apprend à extraire des caractéristiques de la parole humaine pour imiter les détails subtils de sa prononciation et de son rythme.
Les techniques d'encodage de la parole parlée impliquent la formation d'un modèle pour apprendre des intégrations vocales spécifiques à partir d'une population de locuteurs et la reproduction des échantillons audio dans un système distinct qui a été préalablement formé sur de nombreuses personnes.
Après la formation LibriSpeech, dix échantillons audio d'un locuteur arbitraire sont récupérés à partir d'une autre base de données. L'ensemble de données VCTK contient des clips de 109 anglophones natifs avec des accents différents. Fondamentalement, après avoir été formés sur l’ensemble de données LibriSpeech, les nouvelles voix doivent être copiées à partir de l’ensemble de données VCTK.
Comparé à l'adaptation du locuteur, l'encodage du langage parlé est plus facile à mettre en œuvre dans des applications réelles telles que les assistants numériques, a déclaré Sercan Arik, co-auteur de l'article et chercheur scientifique chez Baidu Research.
L'adaptation du langage oral nécessite que l'utilisateur lise des énoncés spécifiques d'un texte donné, tandis que l'encodage du locuteur est un énoncé aléatoire. Cela signifie que l'adaptation du langage oral ne sera pas utilisée sur les appareils grand public à court terme, car son déploiement à grande échelle est plus complexe. En revanche, l'encodage du locuteur est plus facile à déployer, car il est rapide et nécessite peu de mémoire ; il peut même être déployé sur les smartphones.
L’industrie est très préoccupée par le fait que la technologie de l’IA soit manipulée et diffuse de fausses informations.
Les dernières recherches de Baidu montrent que même s’il est possible de produire de faux discours, les performances actuelles ne sont pas suffisantes pour tromper les humains.
Des ensembles de données plus diversifiés sont un moyen d’améliorer le résultat final, et les modèles d’apprentissage profond de clonage vocal eux-mêmes ont encore une certaine marge de progression.
Mais tout n’est pas si mal. La technologie de clonage vocal peut en réalité faire beaucoup de bonnes choses.
Une mère peut configurer un lecteur de livres audio avec sa propre voix pour lire des histoires au coucher à son enfant lorsqu'elle ne peut pas lui lire en personne.
Cependant, à mesure que cette technologie continue de s’améliorer et de devenir plus répandue, nous devons prendre des précautions pour garantir qu’elle ne soit pas exploitée et utilisée comme prévu.
Traduit du blog de Katyanna Quach : https://www.theregister.co.uk/2018/02/22/ai_human_voice_cloning/