HyperAI超神経
Back to Headlines

自分自身のAI音声クローンと会話できる時代——Humeの新機能を試してみた

2日前

AIスタートアップHumeが木曜日に発表した最新の「ハイパーリアルな音声クローン」機能により、自身のAI版と対話する機会が生まれた。ユーザーは自分の声を30~90秒録音し、それをアップロードすることで、AIがそれに基づいて音声の複製を作り出す。筆者が試したところ、この音声クローンは一見リアルに感じられたが、自分の個性やユーモア感を再現することはできなかった。また、特定のトピックへの執着が見られ、Led Zeppelinについて話していた時の筆者の音声サンプルから話題が離れにくかった。 Humeによれば、EVI 3は言葉の強調、一時停止のタイミング、声のトーンなどを理解し、人間らしい会話を模倣できるという。EVI 3は、数兆の文字データと数百時間の音声データを基に学習されており、その結果、従来の音声生成モデルよりはるかに自然な声音を実現している。しかし、その真の理解力については議論の余地がある。 EVI 3に代表される新世代のAI音声モデルは、エンターテイメントやマーケティング業界での実用性を期待されている一方で、詐欺行為の新たな手段となり得ることも懸念される。先週、AIによる米国務長官マルコ・ルビオの声のクローンが作成され、政府関係者を騙そうとする事件が起きた。 将来、EVI 3の後継モデルは、よりリアルな音声クローンの生成能力を持つと予想される。これはZoom会議への代理出席の可能性を秘めるが、同時に詐欺行為の温床ともなりえるだろう。このような技術進展に伴い、われわれの人間社会での規範やセキュリティ対策も進化を続けなければならなくなる。 Humeは、ユーザーがAPIとのやり取りから得るデータを匿名化して収集することが但し、個人設定の「ゼロデータ保持」機能でこれを持ち止められる。Hume CEOのアラン・カウエン氏は本技術が非常に人間らしい音声を生成すると指摘し、急速に進展するAIの発展に驚きを示している。Humeは、この革新的技術が一般的なツールへと進化していく中で、今後さらに進化を遂げていくことを期待している。 【関連情報】 エリーンラボスのような企業も同様の音声モデルを開発しており、今後のAI音声技術の商用化と利活用には注目が集まっている。一方で、技術の進歩に伴い、倫理的な側面での規制が必要になるという見方もある。

Related Links