HyperAI초신경

AI가 자신의 목소리를 완벽하게 모방하는 미래에서 살고 싶은 사람이 있을까요?

7년 전
정보
Gabriel
特色图像

걱정하지 마세요. 아직 기술이 그다지 설득력이 없습니다...
음, 하지만 아직도 조금 불안하네요.

바이두 연구진이 발표한 논문에 따르면, AI 소프트웨어는 몇 번만 들어도 찌르레기처럼 누군가의 목소리를 흉내낼 수 있다고 합니다.

이 기술이 완벽해진다면, 사람들이 실제로는 말하지 않은 내용을 담은 가짜 오디오 클립을 만드는 데 사용될 수도 있습니다.

이렇게 하면 좀 소름이 돋나요?

바이두의 AI 팀은 사실적인 음성을 개발하는 업적으로 잘 알려져 있습니다. 최근 발표된 연구 프로젝트에서는 모델이 사람의 목소리 특징을 학습하고 그 사람이 말하지 않은 내용을 생성하는 방법을 보여줍니다.

하지만 이 모델에서 생성된 클립의 가장 좋은 버전은 여전히 노이즈가 많고 원본 음성보다 품질이 낮았습니다. 하지만 연구자들이 개발한 "신경 복제 시스템"은 영국식 악센트를 그대로 유지하고 발음도 상당히 비슷하게 만들었습니다.

신경 복제 시스템을 구축하는 데에는 화자 적응과 화자 인코딩이라는 두 가지 접근 방식이 있습니다.

구어 적응 기술은 서로 다른 목소리로 말하는 다양한 사람들을 대상으로 모델을 훈련하는 것을 포함합니다. 이 팀은 2,484개의 다양한 음성 소스를 포함하는 LibriSpeech 데이터베이스를 사용하여 이를 수행했습니다. 이 시스템은 인간의 말에서 특징을 추출하여 발음과 리듬의 미묘한 세부 사항을 모방하는 법을 배웁니다.

음성 인코딩 기술은 특정 음성 임베딩을 다수의 화자로부터 학습하도록 모델을 훈련하고, 이전에 많은 사람을 대상으로 훈련된 별도의 시스템에서 오디오 샘플을 재생성하는 과정을 포함합니다.

LibriSpeech 훈련 후, 임의의 화자의 오디오 샘플 10개를 다른 데이터베이스에서 검색합니다. VCTK 데이터 세트에는 다양한 악센트를 가진 109명의 영어 원어민의 클립이 포함되어 있습니다. 기본적으로 LibriSpeech 데이터 세트로 학습한 후 VCTK 데이터 세트에서 새로운 음성을 복사해야 합니다.

논문의 공동 저자이자 바이두 연구소의 연구 과학자인 세르칸 아릭은 화자 적응에 비해 구어체 언어 인코딩은 디지털 보조 장치와 같은 실제 응용 프로그램에서 구현하기가 더 쉽다고 말했습니다.

"구어 적응은 사용자가 주어진 텍스트에서 특정 발화를 읽어야 하는 반면, 화자 인코딩은 무작위 발화를 사용합니다. 즉, 더 넓은 사용자 기반으로 확장하기가 더 어렵기 때문에 구어 적응은 단기적으로 소비자 기기에 사용되지 않을 것입니다. 반면, 화자 인코딩은 빠르고 메모리 사용량이 적어 배포가 더 쉽습니다. 스마트폰에도 배포할 수 있습니다."

업계에서는 AI 기술이 조작되어 허위 정보를 퍼뜨릴까 봐 매우 우려하고 있습니다.

바이두의 최신 연구에 따르면 가짜 음성을 만드는 것은 가능하지만, 현재 성능으로는 인간을 속일 만큼 충분하지 않습니다.

보다 다양한 데이터 세트는 최종 결과를 개선하는 한 가지 방법이며, 음성 복제 딥 러닝 모델 자체에도 여전히 개선의 여지가 있습니다.

하지만 모두 나쁜 소식은 아닙니다. 음성 복제 기술은 실제로 많은 좋은 일을 할 수 있습니다.

어머니는 아이에게 직접 책을 읽어줄 수 없을 때, 자신의 목소리로 오디오북 리더기를 설정하여 아이에게 잠자리 이야기를 읽어줄 수 있습니다.

하지만 이 기술이 지속적으로 개선되고 더욱 보편화됨에 따라, 이 기술이 악용되지 않고 의도한 대로 사용되지 않도록 예방 조치를 취할 필요가 있습니다.

번역: Katyanna Quach의 블로그: https://www.theregister.co.uk/2018/02/22/ai_human_voice_cloning/