HyperAI

Super Neuro에서

2019년 1월 28일 온라인 봄 축제 갈라에서는 AI 가상 호스트가 무대에 올라 쇼를 진행했습니다. AI 대역과 같은 무대에 오른 진행자 중 한 명인 사베이닝은 그 자리에서 "은퇴"할 준비가 되었다고 발표했습니다. AI가 호스트를 대체할 때가 정말 왔을까?

올해 온라인 춘절 갈라에서는 사베이닝, 주쉰, 가오보, 롱양을 기반으로 한 4명의 가상 호스트가 데뷔했습니다. 네 명의 진행자는 모두 각자의 가상 진행자와 함께 무대를 공유했는데, 이는 파티에 정말 많은 재미를 더해주었습니다.

시청하기: 4명의 가상 호스트

영상에서 볼 수 있듯이, 가상 AI 호스트와 실제 AI 호스트 사이에는 매우 유사성이 있습니다. 질문에 대답하고 재치 있는 발언을 하는 데 있어 인간과 동등할 뿐만 아니라, 그에 상응하는 신체 언어도 가지고 있으며, 각 가상 호스트는 서로 다른 표현 특징을 가지고 있습니다.

가상 호스트란 무엇인가요?

이번에 인터넷 춘절 갈라에 출연한 가상 호스트는 ObEN이 만든 PAI(개인 AI)로, 사람의 이미지를 기반으로 가상의 거울 모델을 만들 수 있는 것으로 알려졌습니다.

본 제품의 핵심기술은 크게 세 가지 측면으로 구성되어 있습니다.

첫째, 시각적 이미지가 확립됩니다. AI는 호스트의 사진, 3D 스캐너, 3DS MAX, MAYA 및 기타 3D 모델링 도구를 사용하여 사진의 색상 분포와 구조적 깊이 간의 관계를 이해하는 알고리즘 모델을 구축하고 최종적으로 얼굴과 신체 형태를 구성합니다.

다음은 소리의 합성입니다. 이들이 사용하는 AI 음성 기술은 대량의 음성 라이브러리를 수집할 필요가 없습니다. 단지 12개 정도의 음성 녹음만 필요합니다. 사운드 모델은 특징 매개변수 추출, 전이 학습 및 기타 방법을 통해 구축될 수 있습니다.

마지막으로 가상 호스트를 가능한 한 현실적으로 만들어 보세요. 이를 위해서는 시각적 요소가 소리와 일치해야 할 뿐만 아니라, 시각적 요소가 개인화되어야 합니다. 센서와 동작 추적 장치를 AI와 동작 캡처 훈련과 결합해 가상 호스트는 해당 엔터티에 따라 구두 표현, 얼굴 표정, 제스처, 신체 움직임 및 장면 상호 작용을 시뮬레이션할 수 있습니다.

AI가 호스팅 분야에 진출한 것은 이번이 처음이지만, 세계적으로 AI 가상 앵커가 등장한 사례는 꽤 있습니다.

최초의 AI 뉴스 앵커

신화통신은 2018년 11월에 개최된 제5회 인터넷대회에서 최초의 AI 가상 뉴스 앵커인 새로운 리포터를 선보였습니다. AI의 프로토타입인 추하오는 "이미지는 제 이미지이고, 소리도 제 목소리에 잘 맞는데, 방송에서 이런 말을 한 적은 없습니다..."라고 말했다.

AI 가상 앵커, 바로 시청하세요

이 영상에서 우리는 진행자가 자신의 악센트로 자신을 소개하는 모습을 볼 수 있으며, 진행자의 얼굴과 입술은 목소리에 맞춰 움직입니다. 솔직히 말해서 놀라운 점도 있었지만, 그래도 약간 실망스러웠습니다. 실제 앵커와 비교해 보면 사람들은 한눈에 그것이 기계화된 제품이라는 것을 알 수 있다. 이 시스템의 작동 방식은 여전히 사람이 보도자료를 작성해야 한다는 것입니다. 하지만

이런 종류의 기술 지원은 Sogou의 "클론 기술"에서 나옵니다. 이 기술의 핵심은 음성 합성과 이미지 생성이라는 두 부분에 있습니다.

음성 합성 기술은 소량의 오디오 데이터를 사용하여 기계 모델이 입력 객체의 음성 특징을 학습하고 음색, 리듬, 감정 등의 측면을 파악하여 궁극적으로 입력 텍스트의 오디오 정보를 실현할 수 있도록 합니다.

이미지 생성은 얼굴 인식, 3D 얼굴 재구성, 표정 모델링 등의 측면에서 학습과 구성을 사용하여 궁극적으로 출력 오디오와 출력 시각 정보 간의 대응을 달성합니다.

이런 비판을 제쳐두고, 이 기술의 가장 큰 홍보 포인트는 화면 복제 기능을 실현할 수 있다는 점입니다. 즉, TV, 태블릿, 휴대폰 등을 사용해 한 사람이 세 가지 다른 콘텐츠를 동시에 방송하는 것을 볼 수 있다는 뜻입니다.

이전 AI 앵커

일본에서도 AI 앵커를 만들었다는 보도가 있었습니다.

작년 4월, 일본 NHK TV 방송국의 '뉴스체크 11'이라는 프로그램의 진행자는 귀여운 만화 AI 앵커인 '뉴스 앵커 요미코'였습니다.

이 앵커는 CG 기술을 사용하여 만들어졌습니다. 대량의 녹음으로부터 음소를 분리하는 법을 배우고, 그런 다음 텍스트를 인식하고 읽는 법을 배우고, 마지막으로 이를 사용하여 뉴스를 읽습니다.

또한 로봇은 뉴스 앵커로도 활용되었습니다.

오사카 대학과 교토 대학이 개발한 아름다운 로봇 "엘리카"는 2018년 4월 일본 NNN TV 방송국의 뉴스 앵커로도 활동했습니다.

"엘리카"라는 캐릭터는 23세의 아름다운 소녀입니다. 그녀는 표준적인 여성의 얼굴을 가지고 있으며, 그녀의 말하는 목소리는 성우의 녹음을 기반으로 합성되었는데, 매우 자연스럽다고 할 수 있습니다.

또한 고급 대화 시스템도 갖추고 있습니다. 사람과 대화할 때는 마이크와 센서를 통해 정보를 수집하고, 상대방의 목소리와 움직임을 감지한 후, 상대방에게로 돌아서서 유창하게 대화를 나눕니다.

눈, 입, 목 등 19개 부위가 공기압을 통해 움직여 다양한 표정을 지을 수 있으며, 매우 실제와 같은 간단한 움직임도 할 수 있습니다.

호스트는 언제 교체되나요?

온라인 춘절 갈라로 돌아와서, 4명의 장난꾸러기 가상 호스트의 등장은 많은 주목을 받았고, 시청자들의 태도를 보면 그들이 그들을 매우 좋아한다는 것을 알 수 있습니다.

그러면 호스트가 해고될 기회가 될까요? 아마도 샤오사도 샤오샤오사도 동의하지 않을 것이다.

AI 뉴스 생중계의 악센트나 어색한 표정은 아직 개선의 여지가 있습니다. 한때 일본에서 인기가 있었던 뉴스 방송 로봇은 대규모로 지역 저널리즘 산업을 대체하지 못했습니다. 기껏해야 보조적이고 소설적인 수준에 머물고 있을 뿐이다.

이런 관점에서 보면, 기술의 발전은 우리에게 새롭고 놀라운 경험을 가져다주지만, 어쩌면 이런 시대에는 현실적인 것보다는 실용적인 것이 더 빨리 다가올 수도 있습니다.

언젠가는 대체될 날이 올지도 모르지만, 오늘은 분명히 아닙니다. 우리는 그 날이 실제로 오면 인간은 이미 AI와 지내는 방법을 알아냈을 것이라고 믿어야 합니다. 당시 춘절 기간에는 AI가 춘절 갈라를 진행할 뿐만 아니라, AI가 쇼를 선보이기도 했습니다. 우리로선 입을 벌리고 AI가 우리에게 먹이를 줄 때까지 기다리는 것뿐입니다.

언젠가는 대체될 날이 올지도 모르지만, 오늘은 분명히 아닙니다. 우리는 그 날이 실제로 오면 인간은 이미 AI와 지내는 방법을 알아냈을 것이라고 믿어야 합니다. 당시 춘절 기간에는 AI가 춘절 갈라를 진행할 뿐만 아니라, AI가 쇼를 선보이기도 했습니다.

우리로선 입을 벌리고 AI가 우리에게 먹이를 줄 때까지 기다리는 것뿐입니다.

Command Palette

미래에는 춘절 갈라에 라이브 진행자가 필요하지 않을 수도 있습니다.