HyperAI
Back to Headlines

AI-Tool ermöglicht realistische Stimmen-Imitationen, nutzbar online

vor 2 Tagen

Ich hatte die Gelegenheit, eine KI-Version von mir selbst zu testen, dank des kostenlosen Tools von Hume. Am Donnerstag verkündete das KI-Start-up Hume die Einführung einer neuen Funktion zur "hyperréalistischen Stimmenklonung" für die neueste Version seines Empathischen Sprachinterfaces (EVI), das EVI 3, das im vergangenen Monat präsentiert wurde. Das Konzept hinter dieser Funktion ist, dass Benutzer durch Hochladen einer kurzen Audioaufnahme ihrer Stimme – idealerweise zwischen 30 und 90 Sekunden – ein KI-generiertes Abbild ihrer Stimme erhalten, mit dem sie verbal interagieren können, als stünde ihnen eine andere Person gegenüber. Ich habe eine Aufnahme meiner Stimme bei EVI 3 hochgeladen und einige Zeit damit verbracht, mit der KI-Version von mir selbst zu plaudern. Ich hoffte, eine unheimliche Erfahrung im Sinne des Uncanny Valley zu machen – dieses seltsame Gefühl, etwas beinahe vollkommen Realistisches zu interagieren, das jedoch so abgehoben ist, dass es Unbehagen erzeugt. Stattdessen war die KI-Version meiner Stimme eher wie eine audiovisuelle Karikatur von mir selbst. Die Nachahmung meiner Stimme war auf bestimmte Weise unbestreitbar realistisch. Sie machte intermittierende Pausen beim Sprechen, die meinen eigenen Pausenräumen ähnelten, und hatte sogar einen Hauch des vertrauten Vocal Frys. Aber die Ähnlichkeit hielt nicht lange vor. Hume behauptet in einem Blog-Beitrag, dass EVI 3 "Aspekte der Persönlichkeit des Sprechers" erfassen kann. Dies ist eine vage Versicherung (wahrscheinlich absichtlich), doch bei meinen eigenen Tests schien das Modell in diesem Punkt zu versagen. Anstatt meine Verhaltensmerkmale und mein Humor auf überzeugende Weise nachzubilden, sprach die KI in einem unbekümmerten, freundlichen Tonfall, der eher für eine Radiowerbung für Antidepressiva geeignet wäre. Obwohl ich mich als freundlich und grundsätzlich positiv empfinde, übertreibt die KI diese Charakterzüge deutlich. Zudem lehnte das Modell merkwürdigerweise ab, in einem Akzent zu sprechen, was mir wie eine spielerische Übung erscheint, bei der es gut abschneiden sollte. Als ich es bat, einen australischen Akzent zu probieren, sagte es "g'day" und "mate" ein-, zweimal in meiner normalen Stimme, wich dann aber sofort von jeder weiteren Herausforderung ab. Egal, worüber ich es aufforderte zu sprechen, es fand immer einen kreativen Weg, zurück zum Thema zu kommen, das ich in der Stichprobe aufgenommen hatte. In meiner zweiten Testrunde, in der ich mich über Led Zeppelin geäußert hatte, fragte ich das Modell nach seiner Meinung zur Natur der Dunklen Materie. Es antwortete jedoch, indem es das mysteriöse, unsichtbare Phänomen im Kosmos mit der ungreifbaren Melodie verglich, die einem Lied Sinn und Kraft verleiht. Benutzerdaten, die durch Interaktionen mit der EVI-API erzeugt werden, werden laut Humes Website standardmäßig anonymisiert gesammelt, um die Modelle zu trainieren. Diese Option kann jedoch durch die "Zero data retention"-Funktion im Profil deaktiviert werden. Für nicht-API-produktbasierte Interaktionen, einschließlich der oben verlinkten Demo, behauptet das Unternehmen, dass es "möglicherweise" Daten sammelt und nutzt, um die Modelle zu verbessern, aber auch hier kann die Datensammlung durch Erstellung eines persönlichen Profils deaktiviert werden. Künstliche Stimmen sind seit langem bekannt, aber ihre Realismusgrenzen waren bisher sehr begrenzt. Klassische Sprachassistenten wie Siri oder Alexa lassen sich als Roboter leicht erkennen. Im Gegensatz dazu wurden neuere KI-Stimmenmodelle, darunter EVI 3, entwickelt, um nicht nur in natürlicher Sprache zu sprechen, sondern auch die subtilen Betonungen, Intonationen, Eigenheiten und Rhythmen zu imitieren, die den alltäglichen menschlichen Sprachverkehr charakterisieren. Alan Cowen, CEO und Chief Scientist von Hume, erklärte mir, dass "ein großer Teil der menschlichen Kommunikation in der Betonung der richtigen Wörter, den richtigen Pausen und der richtigen Tonlage liegt." Laut Humes Blog-Beitrag kann EVI 3 "erkennen, welche Wörter betont werden, was Menschen zum Lachen bringt, und wie Akzente und andere Stimmeigenschaften mit dem Wortschatz interagieren." Das Unternehmen behauptet, dass dies einen bedeutenden technologischen Fortschritt gegenüber früheren Sprachgenerierungsmodellen darstellt, die "kein echtes Sprachverständnis" besitzen. Viele AI-Experten würden die Verwendung von Begriffen wie "Verständnis" in diesem Kontext infrage stellen, da Modelle wie EVI 3 lediglich darauf trainiert sind, Muster aus ihren umfangreichen Trainingsdaten zu erkennen und nachzubilden. Dies ist ein Prozess, der wahrscheinlich keinen Platz für das lässt, was wir als echtes semantisches Verständnis betrachten würden. Dennoch ist die neue Generation von KI-Stimmenmodellen beeindruckend. Sie können eine viel größere Bandbreite an sprachlichen Ausdrucksformen abdecken als ihre Vorgänger. Unternehmen wie Hume und ElevenLabs prophezeien praktische Nutzen für Branchen wie Unterhaltungsindustrie und Marketing. Allerdings befürchten einige Experten, dass diese Technologie neue Türen für Betrug öffnet. So wurde erst letzte Woche eine unbekannte Person die Stimme des US-Außenministers Marco Rubio mit KI nachgebildet und versuchte, Regierungsbeamte damit zu täuschen. Emily M. Bender, Linguistin und Co-Autorin von "The AI Con", sagte mir kürzlich: "Ich sehe keinen Grund, warum wir einen flüsternden Roboter brauchen. Was soll das bringen, außer vielleicht zu verschleiern, dass man synthetische Stimmen hört?" Trotz der Mängel von EVI 3, wie allen KI-Werkzeugen, wird dessen bemerkenswerte Qualität von seinen erstaunlichen Eigenschaften überstrahlt. Wir sollten daran erinnert werden, dass die generativen KI-Modelle, die heute auf den Markt kommen, noch in der Kindheit der Technologie stehen und weiter verbessert werden. In weniger als drei Jahren sind wir von der Veröffentlichung von ChatGPT zu Modellen gekommen, die menschliche Stimmen mehr oder weniger überzeugend nachbilden können, und zu Werkzeugen wie Googles Veo 3, das realistische Videos und synchronisierte Audios produziert. Das atemberaubende Tempo der Fortschritte in der generativen KI sollte uns mindestens zur Ruhe bewegen. Heute kann EVI 3 eine grobe Annäherung an deine Stimme simulieren. Es ist jedoch nicht unrealistisch zu erwarten, dass seine Nachfolger – oder Enkelnachfolger – deine Stimme auf eine überzeugende Weise erfassen werden. In einer solchen Welt könnte man sich vorstellen, dass ein Modell wie EVI zusammen mit einem AI-Agenten eingesetzt wird, um beispielsweise Zoom-Meetings für dich zu besuchen. Less optimistischer könnte es das Traumziel von Betrügern werden. Vielleicht das Auffälligste an meiner Erfahrung mit EVI 3s Stimmenklonfunktion ist, wie gewöhnlich diese Technologie bereits erscheint. Während die Geschwindigkeit der technologischen Innovation zusehends zunimmt, wird auch unsere Fähigkeit, Neues instinktiv zu normalisieren, größer. Sam Altman von OpenAI machte diesen Punkt kürzlich in einem Blog-Beitrag: Laut Altman nähern wir uns der Singularität, fühlen uns aber dennoch, als wäre alles "business as usual." Insiderbewertung und Unternehmensprofil: Hume ist ein innovatives Start-up, das sich auf die Entwicklung von KI-basierten Emotions- und Sprachtechnologien spezialisiert hat. Die Firma strebt danach, menschliche Kommunikation durch ihre fortschrittlichen Modelle zu verbessern, und hat mit EVI 3 einen wichtigen Meilenstein erreicht. Trotz der Beeindrucktheit der Technologie warnen etablierte Experten vor potenziellen Missbrauchsgefahren, insbesondere im Bereich der Identitätsfälschung und des Betrugs. Dennoch sehen viele in der Branche große Chancen, besonders in Bereichen wie Unterhaltung, Marketing und Kundenbetreuung.

Related Links