HyperAI초신경

아이들의 옹알이 소리부터, 젊은 시절의 끝없는 이야기, 그리고 중년에 이르기까지, 우리는 부모님과 어른들의 걱정과 권면, 그리고 끊임없이 밀려오는 삶의 압박감을 듣습니다... 곰곰이 생각해 보면, 인생의 각 단계에서의 경험과 기억은 각기 다른 소리로 가득 차 있습니다. 여름철 매미 울음소리와 농구장의 소음은 청춘이고, 저녁의 한숨소리와 휴대폰 문자 알림음은 성장이다. 사람들이 귀를 꼭 막거나 소음 차단 헤드폰을 착용하더라도 청력을 완전히 차단할 수 없는 것처럼, 소리는 어디에나 있습니다.

물리학적 관점에서 보면, 소리는 물체의 진동으로 생성되는 음파이며 공기라는 매체를 통해 전달될 수 있습니다. 그러므로 소리는 완전히 진공인 환경에서만 분리될 수 있습니다. 다른 관점에서 보면, 언어의 전달 수단으로서 소리는 의사소통의 중요한 매체일 뿐만 아니라 감정을 외부로 표출하는 배출구이기도 합니다. AI가 급속히 발전함에 따라 분석 기술과 관련 역량도 점점 더 강력해지고 있습니다. 원래 공기 중에 떠다니던 음파도 이제는 연구할 수 있는 데이터가 되었고, 심지어 인체의 건강 상태를 반영하기도 합니다.

최근 들어, 음성 기반 질병 감지 기술이 호흡기 내과, 심장내과, 위장내과 등의 분야에 등장하기 시작했습니다.이에 비해 정신 질환의 진단 및 치료에 오디오를 활용하는 방식은 엇갈린다.우려되는 점은 관련 오디오 데이터가 심각하게 부족하다는 것입니다(주로 정신 질환의 높은 개인 정보 보호 특성으로 인해). 좋은 소식은 오디오를 기반으로 한 온라인 질병 진단을 통해 환자가 초기 진단 단계에서 느끼는 수치심을 완화하고 가능한 한 빨리 자신이 아픈지 여부를 판단하는 데 도움이 될 수 있다는 것입니다.

중국과학원 원사인 루린은 인터뷰에서 2021년 말 현재 국가 데이터베이스에 등록된 심각한 정신 질환 환자가 660만 명에 달한다고 언급했습니다.치료를 받는 사람의 수는 20%를 초과할 수 없습니다.정신질환 치료율이 낮은 문제를 해결하는 데 있어서 음성분석을 기반으로 한 진단방법을 적극 확대하고 홍보하는 것은 매우 중요한 의미를 갖는다.

상하이 교통대학교 컴퓨터과학과 부교수이자 박사과정 지도교수인 우멍웨는 정신 질환의 진단과 치료를 위한 음성 지능 모델을 발표했습니다.대규모 언어 모델을 기반으로 의사와 환자의 다양한 역할을 시뮬레이션했으며, 인간 정신 질환 진단 전문가의 공동 참여로 임상 기준을 충족하는 세계 최초의 오픈 소스 우울증 상담 대화 데이터 세트를 구축했습니다.

Wu Mengyue 상하이 교통대학교 컴퓨터과학과 부교수, 박사과정 지도교수

국제 여성의 날을 맞아 HyperAI는 우멍웨이 씨와 심층 인터뷰를 진행하는 영광을 얻었고, 이를 통해 음성의 매력과 AI와의 놀라운 반응을 더욱 깊이 이해하게 되었습니다. 동시에 우리는 이 단호하고 자유로운 정신을 가진 여성이 어떻게 자신의 관심사에서 시작하여 점차 전문 분야에서 성과를 거두는지 보았습니다.

구현 가능한 연구를 계속하세요

사람마다 성대, 구강, 비강 등이 미세하게 다르기 때문에, 사람들의 음성 무늬는 지문이나 얼굴만큼이나 다릅니다. 우멍웨는 어린 시절부터 사람들이 서로 대화하는 독특한 방식에 많은 관심을 가졌습니다. 일상생활 속에서 '사람을 목소리로 알아보는 것'이 그녀를 오디오의 세계로 이끈 사다리였다고 할 수 있다.

뛰어난 예민함과 소리에 대한 관심을 지닌 우멍웨는 학부 시절 베이징사범대학에서 심리음향학을 공부했습니다. 이 기간 동안 그녀는 기술적 수준에서 소리의 차이를 설명하기 위해 물리적 음향 특성을 사용하는 것이 중요하다는 것을 깨달았습니다.그리고 마지막 단계에서음향 데이터를 분석하기 위해 계산 모델링이 선택되었습니다.

학부 시절 심리음향학 분야에서 오디오 분석 연구를 시도했던 초기 시도가 우멍웨이의 마음에 씨앗을 심어준 것과 마찬가지로, 박사 과정 중에 그녀가 밀접하게 접하게 된 두 가지 관련 연구 프로젝트가 촉매 역할을 했습니다.

박사과정을 밟는 동안, 정신분열증에 대한 음성 분석 연구를 진행하던 반 친구 중 한 명이 현장 연구를 하던 중 정신분열증을 앓고 있는 많은 노숙자들을 만나게 되었습니다. 임상 심리학 박사 학위를 취득한 또 다른 룸메이트는 멜버른 교도소에 들어가 수감자들을 대상으로 정신 질환 평가를 실시하여, 관련된 범죄 행동이 정신 질환에 의해 영향을 받는지 여부를 설명하고자 했습니다.

이 두 반 친구들의 경험은 우멍웨에게 깊은 영감과 영향을 가져왔습니다. 그녀는 중국으로 돌아온 후 정신 질환의 진단과 치료에 관해 더욱 심층적인 연구를 시작했습니다.

그녀는 말했다,음성학 분야에서 말과 언어는 실제로 인간 뇌 기능의 외부적 표현입니다. 그러므로 감정 장애이든 인지 기능 장애이든 결국에는 말과 언어 표현에 단서를 남기게 됩니다.다시 말해, 정신적 또는 정서적 장애가 있는 사람들을 효과적이고 편리하게 선별하기 위해 오디오에서 관련 바이오마커를 찾을 수 있습니다.

Wu Mengyue와 그녀의 교사 및 학생 팀은 Interspeech 2023 컨퍼런스에 참석했습니다.

어떤 의미에서 사람들이 의료 치료를 받을지 여부나 어떻게 받을지 망설일 때, 오디오 분석은 정신 질환을 진단하는 첫 번째 체크리스트가 될 수 있으며, 어느 정도 환자의 수치심을 약화시킬 수 있습니다.

쭉,우멍웨는 "실질적인 연구"를 고집한다.우멍웨는 박사학위를 취득한 후 AI 음성 인식 회사인 뉘앙스 커뮤니케이션즈로부터 산업 측면에서 조종석 인간-컴퓨터 상호작용에 대한 기술 연구 및 구현에 참여해 달라는 제안을 받았습니다. 이후 그녀는 상하이 교통대학교 컴퓨터공학과의 유카이 교수와 대화를 나누면서, 유카이 교수의 경험을 통해 대학 내 연구의 이점과 성과를 혁신할 수 있는 새로운 아이디어를 접하고 업계에서 학계로 돌아왔습니다.

우멍웨는 솔직하게 말했다.대학이나 산업계에서 "실용적인 연구를 수행한다"는 본래의 의도는 결코 변하지 않았습니다.연구팀은 전염병이 창궐하는 동안 실제적인 필요에 기반한 실용적인 우울증 상담 앱을 개발했는데, 학생들이 바로 사용할 수 있습니다.

오디오 분석을 강화하고 데이터 부족 문제를 극복하세요

우멍웨는 대학으로 돌아온 후에도 여전히 오디오 분석의 연구 방향을 선택했고, 여기에 더 많은 AI 기술을 접목시켰습니다.현재 그의 연구 그룹의 주요 연구 방향은 Rich Audio Analysis로, 일반적으로 음성 인식을 제외한 모든 오디오 처리를 말합니다.

우멍웨는 소리가 세 가지 수준으로 나눌 수 있다고 소개했습니다.하나는 사람들이 말하는 것입니다.이것이 음성 인식 연구의 초점입니다.두 번째는 사람들이 말하는 방식입니다.즉, 같은 문장이라도 다양한 방식으로 표현될 수 있으며, 그 속에 담긴 의미도 다양할 수 있는데, 이를 통해 사람의 정신 상태나 인지 기능을 파악할 수 있습니다.세 번째는 환경 오디오에 대한 이해입니다.이는 또한 오디오 이해에 있어서 기계를 인간과 더욱 비슷하게 만드는 핵심이기도 합니다. 위에 언급한 내용은 풍부한 오디오 분석을 담고 있으며, 그 중 음성 인식은 현재 비교적 성숙되었기 때문에 그녀의 연구는 마지막 두 가지에 중점을 두고 있습니다.

현재 우멍웨의 연구 그룹에는 20명 이상의 학생이 있으며, 두 가지 방향, 즉 계산 정신의학과 청각 이해에 있어서의 병리적 언어 연구 분야에서 관련 연구를 진행하고 있습니다.

응용 시나리오 측면에서 볼 때, 운전 환경에서 음성 인식은 대화형 시스템이 명령을 수동적으로 인식하고 해당 제어를 실행하는 것을 의미합니다. 능동적인 상호작용이 가능하다면 운전자의 목소리 톤을 통해 운전자의 기분이나 피로도를 판단할 수 있으며, 차량 내부의 조명이나 음향 효과를 통해 기분을 조절할 수 있습니다. 동시에 기계가 사용자의 톤이 좋지 않다고 감지하면 지시에 답할 때의 전략과 사고방식을 동기적으로 조정할 수도 있습니다.

예를 들어, 전염병이 창궐하는 동안 마이크를 사용하여 문을 여닫는 주변 소리를 수집하고, 부재/집 상태를 분석하여 파악했습니다. 기존의 카메라 감시와 비교했을 때, 이 방법은 사람들의 사생활과 안전을 보호하는 데 더 도움이 됩니다.

기존의 인상에 따르면, 건전한 데이터는 표본 크기가 크고 매우 풍부해야 하지만, 실제로 질병 진단과 치료, 특히 정신 질환 분야에서는 데이터가 큰 과제가 됩니다. 한편, 의사와 환자 간의 사생활 관계와 환자의 수치심으로 인해 심리 상담 대화 내용을 얻는 것이 매우 어렵습니다. 반면, 일부 병원이나 의사는 대화 형식으로 진료 내용을 녹음하지만, 표준화된 데이터가 형성되지 않고, 오디오 품질이 좋지 않은 경우가 많고, 개인정보 보호 때문에 외부와 공유하는 것이 불가능한 경우가 많습니다.

이를 위해,우멍웨는 연구팀을 이끌고 임상 기준을 충족하는 세계 최초의 오픈소스 우울증 상담 대화 데이터 세트를 구축했습니다.첫 번째 단계는 정신건강센터의 의사와 환자와 장기적이고 심도 있는 소통을 통해 상담과정과 대화 포인트를 공고히 하고, 이후 관련 내용을 의사결정트리 구조의 대화과정으로 정리하여 전문의와 함께 반복적으로 검토하고 조정하는 것입니다. 두 번째로, 롤플레잉을 통해 의사와 환자의 대화를 시뮬레이션하였고, 마지막으로 전문 의사들에게 수집된 데이터를 검토하여 임상 상담에 더 가까운 데이터를 얻어 오픈 소스 데이터 세트를 구성하였습니다.

데이터 세트 링크:https://x-lance.github.io/D4/

과학을 위한 AI 연구에 참여하는 다른 학자들과 마찬가지로, 우멍웨는 심리학과 컴퓨터 과학이 만나는 지점에서 얻은 경험을 바탕으로 AI를 활용한 정신 질환 진단 및 치료를 촉진하는 과정에서 현재 환자들이 겪는 실제적인 어려움을 해결하고, 연구에서 어려움에 직면하면 시뮬레이션 데이터 형태로 연구 전략을 유연하게 조정할 수 있습니다. 학제간적 배경은 종종 과학 연구 분야에 보다 창의적인 혁신적 돌파구를 가져다 줄 수 있습니다.

관심에 의해 움직이면 큰 일을 이룰 수 있습니다

우멍웨와의 인터뷰에서 저자는 '관심'이라는 단어를 여러 번 들었습니다. 오디오 연구에 집중하는 것은 관심에 기반합니다. 그녀는 정신 질환의 진단과 관련된 연구에 관심이 있습니다. 컴퓨터학과로 전향한 것은 유행을 따라가기 위한 것이 아니라, 자신의 관심사에 따른 것이다. 그리고 그녀는 또한 연구 그룹 내 학생들의 이익을 우선시하기를 바랍니다...

엄격한 학문적 연구이든, 직장에서의 빠른 속도의 업무이든, "관심"이 더 많은 영양분을 함유한 토양과 같다는 것은 부인할 수 없는 사실입니다. 어린 시절에 심어 놓으면, 위쪽으로 성장하려는 원동력이 더욱 강해질 것입니다. 우멍웨 교수는 자신의 관심사에 따라 연구를 진행하지만, "불교신자"임에도 불구하고 게으르지 않습니다. 논문 게재 빈도를 통한 과학적 연구 축적이든, 산학융합의 실질적 적용이든, 이 모든 것은 그녀가 '실질적 연구 수행'을 실천하고 있다는 강력한 증거입니다.

최근 들어, 과학, 기술 분야와 과학 연구 분야에서 점점 더 많은 여성들이 활동하면서 전 세계를 놀라게 하는 혁명적 혁신을 가져왔습니다. 유엔 여성 기금은 올해 국제 여성의 날의 주제를 "여성에 대한 투자: 진보 가속화"로 정했는데, 이는 사회적 과정에서 여성이 차지하는 중요한 역할을 어느 정도 강조하고 있습니다.

저자는 성별 간의 차이를 지나치게 강조하고 싶어하지 않지만, 실제 사회 환경에서는 압력이 존재합니다. 하지만 우멍웨가 말했듯이, "행복에 집중하고 자신의 관심사에서 시작하세요." 특히 외부 세계가 여성에게 지나치게 높은 기대를 걸지 않을 때, 실제로는 제한이 그렇게 많지 않다는 것을 의미합니다. 아마도 그것은 힘을 축적하고 기회가 생겼을 때 폭발적으로 성장할 수 있는 공간을 제공할 것입니다.

마지막으로, 이 특별한 날을 맞아, 모든 여성이 우멍웨 선생님처럼 자신의 관심사를 키우고, 자신있게 영양소를 흡수하며, 더욱 멋지고 자유로운 삶을 살 수 있기를 바랍니다!

여성의 날 특별호 | 상하이 교통대학교 우멍웨: 음성 지능 기술을 사용하여 정신 질환에 대한 최초의 진단 및 치료 명령 내림