HyperAI초신경

구글의 음성 인식 도구는 처음에는 자사 직원들에게만 도움이 되었습니다.

特色图像

최근 Google Brain 팀은 언어 장애가 있는 사람의 말을 사람과 기기가 더 정확하게 이해할 수 있도록 돕는 Parrotron 프로젝트를 출시했습니다. Parrotron은 오디오 분석부터 시작하여 음성 신호의 관점에서 문제를 해결합니다. 이 솔루션은 언어 장애가 있는 사람들의 말을 유창한 합성 음성으로 직접 변환하기 위해 단일 엔드투엔드 딥 신경망 훈련을 사용하여 의사소통 문제를 해결하는 데 도움을 줍니다.

디미트리 카네브스키는 1950년대에 러시아에서 태어났습니다. 그는 중소 냉전 시대에 성장했지만, 학업을 마치고 수학 박사학위를 취득했습니다.

그의 공부와 일의 여정은 러시아에서 시작되어 이스라엘과 독일로 옮겨갔습니다. 그는 결국 미국에 머물기로 결정하고 구글에서 연구 과학자가 되어 음성 인식 알고리즘 분야에 집중했습니다.

이는 학문적 엘리트의 삶의 길인 듯합니다. 좋은 교육을 받고, 미국 영주권을 취득하고, 화려한 직업을 갖고, 152개의 미국 과학 및 기술 특허를 취득하고, 마침내 실리콘 밸리에서 인생의 정점에 도달합니다.

이 이야기는 결코 단순하지 않습니다. 디미트리 카네브스키는 평범한 사람이 아니다. 대부분의 사람들은 그가 청각 장애인 사회의 일원이라는 것을 상상하기 어려워합니다.

디미트리 카네브스키는 1살 때 약물 복용으로 인해 청각 장애가 되었지만, 그의 가족은 여전히 그에게 일반 교육을 선택했습니다. 그는 어렸을 때부터 입술 읽기와 발음을 배우기 시작했으며 일반 학교에 다녔습니다. 그리고 10대가 되자 그는 러시아어 발음의 도움을 받아 영어를 배우기 시작했습니다.

그러나 영어를 배우는 동안 그는 청각 장애와 러시아어 발음의 차이로 인해 언어 소통에 큰 어려움을 겪었습니다. 그가 말한 문장은 다소 모호했고, 상대방이 이해하기 어려운 경우가 많았습니다. 가족에게 말로만 따뜻한 위로를 전하지 못하는 경우도 있습니다.

간단히 말해서, 대부분의 사람들은 그가 직접 말하는 영어를 이해하는 데 어려움을 느낍니다. 디미트리 카네브스키는 자신의 문제를 해결하고 비슷한 문제에 직면한 더 많은 사람들을 돕기 위해 음성 인식이라는 주제로 연구해 왔습니다.

때로는 일반적인 의사소통을 완료하기 위해 Dimitri Kanevsky는 음성-텍스트 도구를 사용해야 합니다.

의학에서는 이러한 말이 불분명한 상태를 다음과 같이 부릅니다. "구음장애".통계에 따르면,전 세계적으로 약 100만 명의 사람들이 신체적 질병으로 인해 언어 장애를 겪고 있습니다.

구음장애는 신경병증, 언어 관련 근육의 마비, 수축력 약화 또는 운동 조절 장애로 인해 발생하는 언어 장애로, 일반적으로 "말이 불분명하다"고 알려져 있습니다.

예를 들어, 뇌졸중, 뇌성마비, 파킨슨병, 다운증후군, ALS(근위축성 측색경화증) 및 기타 여러 질병이 이러한 상태를 유발할 수 있습니다.

상대방은 횡설수설을 많이 했지만, 당신이 들을 수 있는 건 웅얼거림과 깨우는 소리뿐이었습니다...

또한 구글의 브랜드 마케팅 매니저인 오브리 리(Aubrie Lee)는 희귀 근이영양실조(ALS) 진단을 받았고, 이로 인해 그녀는 많은 시간을 휠체어에서 보내야 했습니다.

그녀의 몸 전체에 걸쳐 근육량이 지속적으로 감소하면서 의사소통에도 어려움이 생겼습니다. 오브리는 청력과 발음에 어려움을 겪었고, 웃을 수 없어 종종 오해를 받았습니다. 게다가 그녀는 여러 가지 악센트를 가지고 있고 발음도 명확하지 않아 대화 중에 상대방이 그녀가 무슨 말을 하는지 알아들을 수 없는 경우가 많습니다.

디미트리 카네브스키와 오브리 리와 같은 동료들이 언어 문제를 해결할 수 있도록 돕기 위해, 발음 장애는 점차 Google AI 연구팀의 과학적 연구 방향이 되었습니다.

언어 장벽이 있는 사람들을 돌보고,구글, 획기적인 도구 출시

몇 년 전, 카네브스키는 음성 인식 분야에서 30년의 경력을 가지고 구글의 AI 연구 그룹에 합류했는데, 당시 그가 다른 사람들과 정상적으로 소통할 수 있게 해주는 편리한 도구는 없었습니다. 카네브스키는 모든 회의에서 CART 서비스를 미리 예약해야 하고, 캡션 작성자가 회의에 입장하여 대화를 위한 음성 메시지를 화면에 입력하도록 해야 합니다.

마찬가지로 오브리와 그녀의 동료들 역시 일반인들이 쉽게 할 수 있는 업무 커뮤니케이션을 완료하기 위해 많은 노력을 기울여야 합니다. 하지만 이러한 딜레마는 점차 역사가 되어가고 있습니다.

2019년 2월, 구글은 앱을 출시했습니다.라이브 트랜스크라이브 휴대용 언어 번역에 희망을 가져다 줍니다. 이는 휴대폰에 내장된 마이크를 사용하여 실제 음성을 즉시 기록하고, 음성을 실시간으로 표시되는 텍스트로 변환하는 애플리케이션입니다.

그러다가 5월 구글 I/O 컨퍼런스에서 프로젝트 유포리아  이 프로그램은 ALS로 인해 언어 장애가 있는 사람들을 위해 음성-텍스트 변환 솔루션을 제공한다는 제안이 있었습니다.

Google은 Project Euphoria에서 언어 장벽에 적응하도록 AI 모델을 훈련합니다.

이번 달, 구글은 모호한 소리를 표준 합성 소리로 직접 변환할 수 있는 새로운 AI 도구인 Parrotron을 출시했습니다.이를 통해 언어 장벽을 극복하는 기술이 한 단계 더 발전하게 되었습니다.

Parrotron의엔드투엔드 딥 신경망이는 오디오 분석의 관점에서 시작됩니다. 사용 시 테스터는 휴대전화나 다른 장치에 대고 말을 하면 다시 말한 후 표준 발음을 빠르게 얻을 수 있습니다.

논문에서 "Parrotron: 종단 간 음성-음성 변환 모델 및 청각 장애 음성 및 음성 분리에 대한 응용"테스트에서 Parrotrn은 음성 인식 및 변환의 정확도 측면에서 새로운 혁신을 이루며 탁월한 성능을 보였습니다.

논문 주소: https://arxiv.org/abs/1904.04169

Parrotron: 모호한 단어를 명확한 말로 번역

그렇다면 이처럼 첨단기술로 보이는 기술은 어떻게 구현될까요?

Parrotron은 모호한 음성을 일반 문장에 매핑하기 위해 입력/출력 음성 쌍의 병렬 코퍼스를 사용하여 훈련된 종단 간 시퀀스-투-시퀀스 모델입니다..

파로트론 구조 흐름도

네트워크 모델은 어텐션 메커니즘을 갖춘 인코더와 디코더로 구성되며, 마지막으로 보코더는 시간 영역 파형을 합성하여 예측된 오디오 신호를 제공합니다.

인코더는 음향 프레임 시퀀스를 숨겨진 특징 표현으로 변환하고, 디코더는 표현을 구문 분석하여 스펙트로그램을 예측합니다.

이 작업은 두 단계로 나뉩니다.먼저 표준 부드러운 오디오에 대한 음성-음성 변환 모델을 구축한 다음 모델 매개변수를 조정하여 퍼지 음성을 입력으로 받아 모델이 구별하고 인식하는 방법을 학습할 수 있도록 합니다..

Kanevsky와 Parrotron을 사용하는 다른 직원

그들은 ALS 환자의 언어적 특성을 시뮬레이션하기 위해 Project Euphonia의 ALS 언어 코퍼스를 사용했고, 훈련 데이터로 언어를 합성하여 모호한 문장을 만들었습니다.

특정 개인의 경우, 녹음된 자료는 해당 개인이 직접 제공합니다.

훈련 후,변환 모델은 언어의 방해 요소를 제거할 수 있습니다.스트레스, 리듬, 배경 소음 등의 영향동시에 모든 비언어적 간섭을 무시하십시오.화자의 특성, 환경적 요인, 말하는 스타일 등을 포함하고, 대화의 내용만을 분석하고 처리합니다.

Parrontron의 첫 두 테스터: 긴장감 없음

Parrotron의 실제 효과를 확인하려면 당연히 실제로 어떤 성능을 보이는지 살펴봐야 합니다. 이 시험에 가장 적합한 후보는 의심할 여지 없이 디미트리 카네브스키와 오브리 리였습니다.

실험에서 디미트리는 15시간 분량의 코퍼스를 녹음하고 모델이 그의 말의 미묘한 차이를 학습하도록 했습니다. 학습을 통해 모델은 최종 번역에 도달합니다.테스트 세트의 번역 오류율은 시작 시 89%에서 32%로 감소했습니다.  .

즉, 파로트론이 필사한 음성을 사용하면 상대방이나 ASR(음성 인식) 시스템이 쉽게 알아들을 수 있습니다.

Kanevsky의 Parrotron 사용에 대한 세부 사항

나중에 오브리 리도 실험을 실시했습니다.그녀가 제공한 1.5시간 분량의 연설을 통해 모델은 정확한 연설을 번역하여 그녀가 명확하게 표현할 수 있게 했습니다..

 사회적 선을 위한 AI: 인공지능의 사명

최근 몇 년 동안 인공지능이 만든 접근성 프로젝트가 자주 제안되었습니다. 장애인이 새로운 문을 열 수 있도록 돕는 다양한 배려 기술이 등장하고 있습니다.

물론, 기술이 이런 사람들에게 도움이 되기는 하지만, 동시에 이런 특수 집단에 의해 주도되기도 합니다. 예를 들어, 구어 장애로 인한 어려움을 잘 알고 있는 디미트리 카네브스키는 음성 인식 및 의사소통에 대한 연구에 헌신해 왔습니다. 오브리 리는 삶에 대한 열정적이고 활력 넘치는 태도를 통해 장애인에 대한 더 많은 연구 투자를 장려하고 장려합니다.

오브리는 장애인의 권리를 위해 다양한 플랫폼에서 활동하는 예술인이자 디자이너이기도 합니다.

현재 데이터는 상황이 낙관적이지 않음을 보여줍니다.전 세계 장애인 10명 중 1명만이 기술 도구를 사용할 수 있습니다.. 하지만 다행히도 많은 부분이 변화하고 있으며, 희망적인 진전도 보이고 있습니다.

기술 거대 기업인 Google은 여전히 다음을 구현하고 있습니다. 사회적 이익을 위한 AIParrotron과 같은 계획과 도구는 아마도 그 아름다운 비전을 향한 단계일 것입니다.

인공지능 기술이 전 세계를 휩쓸고 있는 이 시대에, 우리는 예술 분야에서 AI가 보여준 변화와 창의성, 그리고 사회생활에 대한 긍정적인 진전을 보았습니다. 하지만 일부 사람들이 AI를 악의적으로 이용해 얼굴을 바꾸거나, 합성하거나, 무에서 유를 창조하는 모습도 보았습니다.

AI가 본래의 과학적 목적으로 돌아와 더 많은 도움이 필요한 사람들을 돕고 세상을 더 나은 곳으로 만들 수 있기를 바랍니다!

-- 위에--