HyperAI

Wer Möchte in Einer Zukunft Leben, in Der Ihre Stimme Perfekt Von Der KI Imitiert Wird?

vor 7 Jahren
Information
Gabriel
特色图像

Keine Sorge, die Technologie ist noch nicht sehr überzeugend …
Äh, aber ich fühle mich immer noch etwas unwohl.

Laut einem von Forschern bei Baidu veröffentlichten Artikel kann KI-Software die Stimme einer Person wie ein Star nachahmen, indem sie sie einfach ein paar Mal anhört.

Wenn die Technologie perfektioniert ist, könnte sie zur Generierung gefälschter Audioclips verwendet werden, in denen Menschen Dinge sagen, die sie nie gesagt haben.

Ist Ihnen das ein wenig unheimlich?

Das KI-Team von Baidu ist für seine Arbeit an der Entwicklung realistischer Sprache bekannt. Ein kürzlich veröffentlichtes Forschungsprojekt zeigt, wie ein Modell die Eigenschaften der Stimme einer Person erlernen und Inhalte generieren kann, die die Person nie gesagt hat.

Allerdings waren die besten Versionen der aus dem Modell erstellten Clips immer noch sehr laut und von geringerer Qualität als die Originalsprache. Doch das von den Forschern entwickelte „neuronale Klonsystem“ konnte den britischen Akzent beibehalten und ziemlich ähnlich klingen.

Es gibt zwei verschiedene Ansätze zum Aufbau eines neuronalen Klonsystems: Sprecheranpassung und Sprecherkodierung.

Bei der Technologie zur Anpassung gesprochener Sprache wird das Modell mit verschiedenen Personen trainiert, die mit unterschiedlichen Stimmen sprechen. Das Team nutzte hierfür die LibriSpeech-Datenbank, die 2.484 verschiedene Sprachquellen enthält. Das System lernt, Merkmale aus der menschlichen Sprache zu extrahieren, um die subtilen Details ihrer Aussprache und ihres Rhythmus nachzuahmen.

Bei Techniken zur Sprachkodierung wird ein Modell trainiert, um bestimmte Spracheinbettungen einer Sprecherpopulation zu erlernen, und die Audiobeispiele werden in einem separaten System reproduziert, das zuvor an vielen Personen trainiert wurde.

Nach dem LibriSpeech-Training werden zehn Audiobeispiele eines beliebigen Sprechers aus einer anderen Datenbank abgerufen. Der VCTK-Datensatz enthält Clips von 109 englischen Muttersprachlern mit unterschiedlichen Akzenten. Grundsätzlich müssen neue Stimmen nach dem Training mit dem LibriSpeech-Datensatz aus dem VCTK-Datensatz kopiert werden.

Im Vergleich zur Sprecheradaption sei die Kodierung gesprochener Sprache in realen Anwendungen wie digitalen Assistenten leichter zu implementieren, sagte Sercan Arik, Co-Autor des Artikels und Wissenschaftler bei Baidu Research.

Bei der Sprachadaption muss der Nutzer bestimmte Äußerungen aus einem vorgegebenen Text lesen, während bei der Sprecherkodierung eine zufällige Äußerung erfolgt. Das bedeutet, dass die Sprachadaption kurzfristig nicht auf Verbrauchergeräten zum Einsatz kommen wird, da die Skalierung auf eine breitere Nutzerbasis schwieriger ist. Im Gegensatz dazu ist die Sprecherkodierung einfacher zu implementieren, da sie schnell ist und wenig Speicher benötigt – sie kann sogar auf Smartphones eingesetzt werden.

Die Branche ist sehr besorgt darüber, dass KI-Technologie manipuliert wird und falsche Informationen verbreitet.

Die neuesten Untersuchungen von Baidu zeigen, dass es zwar möglich ist, falsche Sprache zu erzeugen, die derzeitige Leistung jedoch nicht ausreicht, um Menschen zu täuschen.

Eine Möglichkeit, das Endergebnis zu verbessern, besteht darin, vielfältigere Datensätze zu verwenden. Bei den Deep-Learning-Modellen für das Voice-Cloning selbst besteht jedoch noch Verbesserungsbedarf.

Aber es gibt nicht nur schlechte Nachrichten. Die Technologie zum Klonen von Stimmen kann tatsächlich viel Gutes bewirken.

Eine Mutter kann einen Hörbuchleser mit ihrer eigenen Stimme konfigurieren, um ihrem Kind Gutenachtgeschichten vorzulesen, wenn sie ihm nicht persönlich vorlesen kann.

Da sich diese Technologie jedoch ständig verbessert und immer weiter verbreitet, müssen wir Vorkehrungen treffen, um sicherzustellen, dass sie nicht missbraucht und bestimmungsgemäß verwendet wird.

Übersetzt aus: Katyanna Quachs Blog: https://www.theregister.co.uk/2018/02/22/ai_human_voice_cloning/