HyperAI超神経

AI の音声が完全に模倣される未来に誰が住みたいと思うでしょうか?

7年前
情報
Gabriel
特色图像

心配しないでください、このテクノロジーはまだ十分に説得力のあるものではありません…
うーん、でもまだ少し不安な気持ちもある。

Baidu の研究者が発表した論文によると、AI ソフトウェアは他人の声を数回聞くだけで、九官鳥のようにその人のスピーチを模倣できるようになるという。

この技術が完成すれば、人々が実際には言っていないことを言っている偽の音声クリップを生成することが可能になるだろう。

これを見ると、ちょっと不気味な気がしませんか?

Baidu の AI チームは、リアルな音声作品を開発する能力で知られています。最近発表された最新の研究プロジェクトでは、モデルがどのようにして人の声の特徴を学習し、その人がまったく話していないコンテンツを生成できるかを示しています。

それでも、モデルから生成されたクリップの最良のバージョンはノイズが多く、元の音声よりも品質が低かった。しかし、研究者らが開発した「神経クローン作成システム」は、英国のアクセントと類似した音声を維持することに成功した。

ニューラル クローン システムを構築するには、話者適応と話者エンコーディングという 2 つの異なる方法があります。

音声言語適応技術には、さまざまな人々がさまざまな声で話しているモデルのトレーニングが含まれます。チームは、2,484 の異なる音源の LibriSpeech データベースを使用してこれを行いました。このシステムは、人々の音声から特徴を抽出して、発音やリズムの細部を模倣することを学習します。

音声エンコード技術には、話者からの特定の音声と埋め込みを学習するモデルのトレーニングと、多くの人に対して事前にトレーニングされた別のシステムでオーディオ サンプルを再生することが含まれます。

LibriSpeech のトレーニング後、任意の話者の 10 個の音声サンプルが別のデータベースから取得されます。 VCTK データセットには、さまざまなアクセントを持つ 109 人の英語ネイティブ スピーカーからのクリップが含まれています。基本的に、LibriSpeech データセットでトレーニングした後、新しいサウンドを VCTK データセットからコピーする必要があります。

論文の共著者でBaidu Researchの研究員であるSercan Arik氏は、話者適応技術と比較して、音声言語エンコード技術はデジタルアシスタントなど現実のアプリケーションに実装するのが容易だと述べた。

「音声言語適応技術では、ユーザーは特定のテキストから特定の発話を読み取る必要がありますが、話者エンコード技術では発話がランダム化されます。これは、音声言語適応技術がユーザー向けに拡張されるため、短期的にはユーザーのデバイスで利用できなくなることを意味します」それどころか、スピーカー エンコーディング テクノロジーは高速でメモリ要件が低いため、導入が容易であり、スマートフォンにも導入できます。」

業界は、AI技術が操作され、虚偽の情報が拡散される可能性があることを非常に懸念している。

Baidu の最新の研究によると、偽の音声を生成することは可能だが、現在のパフォーマンスでは人間を騙すのに十分ではないことが示されています。

より多様なデータセットは最終結果を改善する 1 つの方法であり、音声クローン作成ディープラーニング モデル自体には改善の余地があります。

しかし、悪いニュースばかりではありません。音声クローン技術には、実際に多くの優れた効果もあります。

母親は、自分で本を読み聞かせることができないときに、自分の声でオーディオブック リーダーを設定して、就寝時の物語を子供たちに読み聞かせることができます。

ただし、このテクノロジーは改良され続けており、さらに普及しているため、このテクノロジーが悪用されず、意図したとおりに使用されるように予防措置を講じる必要があります。

編集元: Katyanna Quach のブログ: https://www.theregister.co.uk/2018/02/22/ai_human_voice_cloning/