HyperAI
Back to Headlines

Comment Cloner Votre Voix en 30 Secondes avec l’Outil Gratuit d’Hume : Mon Expérience avec EVI 3

il y a 2 jours

Nouvelle Technologie : Clone vocal réaliste réalisé par Hume Le jeudi 12 octobre, la start-up spécialisée en intelligence artificielle (IA) Hume a annoncé le lancement d'une fonction de "cloning vocal hyper réel" intégrée dans la dernière version de son modèle d'interface vocale empathique (EVI), l'EVI 3, dévoilée le mois dernier. Cette avancée permet aux utilisateurs de créer un clone vocal leur ressemblant en uploadant une courte enregistrement audio – idéalement entre 30 et 90 secondes – puis d'interagir verbalement avec ce double numérique comme s'ils conversaient avec eux-mêmes ou quelqu'un d'autre en face à face. Mon expérience avec EVI 3 J'ai tenté l'expérience de cette nouvelle fonctionnalité en enregistrant ma voix et ai engagé une discussion avec le clone vocal généré. Bien que la réplique vocale produite fût indéniablement réaliste dans certains aspects – elle reproduisait mes pauses et quelques nuances de maintonement familières –, elle manquait cruellement de vérisimilitude globale. Hume prétend que EVI 3 peut capter "des aspects de la personnalité du locuteur". Cette affirmation reste nébuleuse, mais lors de mes essais, j'ai réalisé que le clone n'atteignait pas ce niveau de précision. Il adoptait un ton enjoué et bienveillant, parfois trop exagéré pour être naturel, comme si je m'étais transformé en porte-parole radio pour un médicament anti-dépresseur. Ce ton était éloigné de mes traits de personnalité habituels, notamment mon sens de l'humour et certaines manies verbales. De plus, le clone a refusé catégoriquement de parler avec un accent différent, même quand je lui ai demandé d'imiter l'accent australien. Il a juste répété "g'day" et "mate" une ou deux fois dans ma voix normale avant de rebrousser chemin. Une curieuse caractéristique est apparue également : peu importe le sujet de discussion, il revenait systématiquement au thème abordé dans l'enregistrement d'origine. Par exemple, après avoir enregistré une conversation sur Led Zeppelin, le clone s'est rapidement ramené au domaine musical en répondant à une question sur la matière noire. Collecte de données D'après le site web de Hume, les données produites par les interactions avec l'EVI API sont collectées et anonymisées par défaut afin de former leurs modèles. Cependant, il est possible de désactiver cette option via la fonction "Zero data retention" dans le profil utilisateur. Pour les produits non-API, y compris la démonstration accessible en ligne, la société précise qu'elle "pourrait" collecter et utiliser les données pour améliorer ses modèles, mais cette option peut également être désactivée en créant un profil personnel. Progrès dans les modèles vocaux Les voix d'IA traditionnelles, comme celles d'Amazon Alexa ou d'Apple Siri, sont depuis longtemps associées à une réalité limitée et souvent facilement reconnaissable. En revanche, une nouvelle génération de modèles vocaux, dont EVI 3 fait partie, a été développée pour reproduire non seulement un langage naturel mais aussi les inflexions, intonations, particularités et cadences qui rendent la parole humaine ordinaire si unique. Selon Alan Cowen, le CEO et chef scientifique de Hume, "une large partie de la communication humaine repose sur l'accentuation des bons mots, les pauses adéquates et l'utilisation du bon ton." Technologie et compréhension semantique Cowen affirme que l'EVI 3 a été formé "sur des trillions de tokens de texte et des millions d'heures d'enregistrements vocaux". Cet approche permet au modèle de reproduire des voix plus réalistes qu'on pourrait l'imaginer. Cependant, de nombreux experts en IA contestent l'utilisation du terme "compréhension" dans ce contexte. Leur argumentation se base sur le fait que ces modèles sont principalement entraînés pour detecter et imiter des motifs à partir de vastes quantités de données, sans véritablement comprendre le sens sémantique des phrases. Implications et préoccupations Le potentiel pratique de ces modèles vocaux est immense. Des entreprises comme Hume et ElevenLabs prédisent des applications révolutionnaires dans les secteurs du divertissement et du marketing. Cependant, certaines craintes subsistent. Récemment, un individu inconnu a utilisé l'IA pour imiter la voix du Secrétaire d'État américain Marco Rubio, tentant ainsi de tromper des responsables gouvernementaux. Emily M. Bender, linguiste et co-auteure du livre The AI Con, a souligné l'inquiétude liée à l'utilisation potentielle de ces technologies pour dissimuler la nature synthétique des messages, mettant en évidence des risques de tromperie. Alan Cowen a reconnu ces préoccupations et a appelé à une réflexion éthique sur l'utilisation de l'IA, tout en soulignant les progrès impressionnants réalisés en quelques années seulement. L'essor rapide de l'IA, d'OpenAI à Google et autres, nous pousse à réévaluer constamment notre perception de la "normalité" technologique. Perspectives futures Bien qu'EVI 3 présente encore quelques limitations, il est fascinant de voir à quelle vitesse la technologie avance. Il n'est pas absurde de penser que d'ici quelques années, les clones vocaux seront capables de reproduire la voix d'une personne avec une fidélité presque totale. Dans un tel scénario, on pourrait envisager un clone vocal capable de participer à des réunions Zoom à notre place, ou bien devenir un outil rêvé pour les arnaqueurs. Sam Altman, PDG d'OpenAI, a mis en évidence ce phénomène dans un récent billet de blog. Pour lui, nous nous dirigeons vers un moment critique, la singularité technologique, mais pour la plupart des gens, ces avancées restent relativements discrètes et s'intègrent rapidement dans le quotidien. L'accélération de l'innovation technologique renforce notre capacité à normaliser des avancées qui auraient autrefois suscité l'émerveillement et l'ébahissement. Conclusion La technologie de clone vocal d'Hume représente un pas significatif vers une interaction humaine avec l'IA qui est de plus en plus naturelle et convaincante. Cependant, elle ouvre également des questions éthiques importantes sur son utilisation et ses potentialités de déformation. À mesure que ces modèles deviendront plus sophistiqués, il sera crucial de garder un œil vigilant sur les implications sociales et éthiques de ces innovations. Évaluation de l'événement par les professionnels de l'industrie Des experts de l'industrie soulignent la portée révolutionnaire de cette technologie, tout en émettant des réserves sur sa mise en œuvre. Ils encouragent les développeurs à privilégier une utilisation responsable et éthique de ces outils, tout en poursuivant l'innovation. Hume, connue pour ses travaux en IA empathique, est une entreprise pionnière dont les développements promettent de nouvelles façons d'interagir avec la technologie, avec un impact potentiel majeur sur divers domaines, y compris les communications professionnelles.

Related Links