AI 스타트업 휼메, 자신의 목소리와 대화할 수 있는 최신 기능 출시
Hume의 AI 스타트업이 최근 새로운 '초현실적인 음성 복제' 기능을 공개했습니다. 이 기능은 지난 달 출시된 Empathic Voice Interface (EVI) 모델의 최신 버전인 EVI 3에 적용되었습니다. 사용자는 자신이 말하는 짧은 오디오 녹음을 업로드하면, 이 모델이 AI로 생성된 자신의 목소리 복제본을 만들어 대화할 수 있도록 해줍니다. 녹음 길이는 30~90초가 이상적이며, 이를 통해 사용자는 마치 진짜 사람과 대화하는 것처럼 목소리 복제본과 대화를 나눌 수 있습니다. 저도 이 기능을 직접 시험해 보았습니다. EVI 3의 저의 목소리 복제본은 일부 면에서 매우 현실적이었습니다. 말하는 동안 제 습관대로 잠시 멈추는 모습이나 익숙한 목소리 톤을 재현했습니다. 그러나 그 이상의 부분에서는 실망스러웠습니다. Hume는 블로그 포스트에서 EVI 3의 새 음성 복제 기능이 "발화자의 성격 특징"을 포착한다고 주장하지만, 저의 경우 모델은 제 행동 패턴이나 유머감각을 사실적으로 재현하지 못했습니다. 오히려 AI는 지나치게 긍정적이고 친절한 어조로 말해, 마치 항우울제 광고에서 들리는 목소리 같았습니다. 또한, AI는 억양을 시도해보라는 제 요구에 대해 매우 소극적이었습니다. 예를 들어, 저에게 호주 억양으로 말해보라고 요청했을 때, AI는 제 일반 목소리로 "g'day"와 "mate"를 한두 번 발음하고는 더 도전적인 표현을 피했습니다. 어떤 주제로 대화를 이어가든, AI는 항상 제 목소리를 샘플로 제공할 때 논의했던 주제로 돌아가려고 했습니다. 이는 작년 Anthropic의 실험에서 Claude가 골든 게이트 브리지에 집착하도록 수정된 것과 유사한 현상이었습니다. 예를 들어, 두 번째 시험에서는 저가 LED ZEPPELIN에 대해 말한 녹음을 사용했습니다. 그 후 EVI 3의 목소리 복제본에게 암흑물질에 대한 생각을 설명해달라고 요청하자, AI는 곧바로 음악이라는 주제로 돌아가면서, 우주의 신비로운 힘과 노래에 의미와 힘을 부여하는 무형의 선율을 비교했습니다. Hume의 웹사이트에 따르면, EVI API를 이용한 상호작용에서 생성된 사용자 데이터는 기본적으로 익명화되어 모델 훈련에 사용됩니다. 하지만 프로필에서 '제로 데이터 보존' 기능을 설정하여 이 옵션을 비활성화할 수 있습니다. 비-API 제품들, 즉 위에서 링크된 데모에서도 회사는 데이터를 수집하여 모델 개선에 사용할 수 있지만, 개인 프로필을 생성하면 이 옵션을 비활성화할 수 있습니다. AI 음성은 이미 오랫동안 존재해왔지만, 전통적으로 진실성 면에서 제한적이었습니다. 예를 들어, Siri나 Alexa와 대화할 때는 분명히 로봇과 이야기하고 있다는 것을 알 수 있었습니다. 그러나 EVI 3 같은 새로운 AI 음성 모델들은 자연어뿐만 아니라, 실제 일상적인 인간 발화의 미묘한 억양, 톤, 특이점, 그리고 리듬을 모방하도록 설계되었습니다. Hume의 CEO이자 최고 과학자인 Alan Cowen은 "인간 커뮤니케이션의 큰 부분은 적절한 단어 강조, 적절한 시기에 일시 중단, 적절한 목소리 톤 사용"이라고 말했습니다. Hume는 블로그 포스트에서 EVI 3가 "어떤 단어를 강조할지, 사람들이 웃을 만한 것이 무엇인지, 그리고 억양과 다른 목소리 특성이 어휘와 어떻게 상호작용하는지를 알고 있다"고 주장합니다. 이는 이전의 언어 생성 모델이 "진정한 의미 이해를 갖지 못했다"는 점에서 큰 기술적 진보를 의미합니다. 다만, 많은 AI 전문가들은 이러한 모델들이 단순히 방대한 양의 훈련 데이터에서 패턴을 감지하고 재현하도록 훈련받았다는 점에서 '이해'라는 용어의 사용에 대해 비판적입니다. 그러나 이러한 새로운 AI 음성 모델들의 실질적인 장점은 부인하기 어렵습니다. 이들이 전보다 훨씬 넓은 범위의 목소리 표현을 탐색할 수 있는 능력은 인상적입니다. Hume와 ElevenLabs 같은 회사들은 이 새로운 모델들이 엔터테인먼트와 마케팅 산업에 실질적인 혜택을 줄 것이라고 주장합니다. 그러나 일부 전문가들은 이 기술이 새로운 기만의 문을 열 수 있다고 우려하고 있습니다. 예를 들어, 지난 주에 알려지지 않은 사람이 AI를 활용하여 미국 국무장관 Marco Rubio의 목소리를 모방하여 정부 관료들을 속이려는 시도가 있었습니다. "로봇이 속삭이는 데는 어떤 필요성이 있을까요? 합성을 듣고 있다는 사실을 숨기는 데 이용될 뿐"이라고 언어학자 Emily M. Bender는 최근 저와의 인터뷰에서 말했습니다. EVI 3의 음성 복제 기능은 여전히 여러 제약이 있지만, 이 기술이 진보할수록 이러한 단점들은 더욱 덜 중요해질 것입니다. 불과 3년 만에 ChatGPT의 공개부터 현재의 almost-realistic한 인간 목소리 모사를 생성하는 AI 모델, Google의 Veo 3와 같이 실제적인 동영상과 동기화된 오디오를 생산하는 도구까지, 생성형 AI의 발전 속도는 경이롭습니다. 이러한 기술이 더욱 발전하면, EVI나 유사한 음성 생성 모델이 Zoom 회의에 참석하거나, 덜 낙관적으로는 사기꾼들에게 유용한 도구가 될 수도 있습니다. 더욱이, EVI 3의 음성 복제 기능을 사용하면서 가장 인상 깊었던 점은 이 기술이 이미 매우 평범하게 느껴진다는 것입니다. 기술 혁신의 속도가 가속화됨에 따라, 과거 세대가 경외심에 차서 입을 다물었을 것이 빠르게 일상화되고 있습니다. OpenAI의 Sam Altman은 최근 블로그 글에서 "우리는 싱귤라리티에 접근하고 있지만, 대부분의 경우 그것은 평소와 다름없는 일상과 같습니다"라고 지적했습니다. AI 음성 복제 기술은 여전히 초기 단계에 있으며, 앞으로 더욱 발전할 것으로 기대됩니다. 그러나 이 기술이 어떤 영향을 미칠지는 아직 명확하지 않습니다. AI 전문가들은 이 기술이 실질적인 혜택을 가져올 수 있지만, 동시에 새로운 형태의 기만을 가능하게 할 수도 있다고 경고하고 있습니다. Hume는 이러한 기술이 엔터테인먼트와 마케팅 산업에 혁신을 가져올 것으로 기대하고 있지만, 사용자 데이터 보호와 윤리적 사용에 대한 고려도 필요할 것입니다.