妇女节特刊 | 上海交大吴梦玥:用言语智能技术,为精神疾病开出第一张诊疗单

特色图像

从孩童的咿呀学语,到青年时期聊不完的少年心事,进而人到中年,耳边既有父母长辈的叮咛关切,也有生活压力一刻不停的催促……细细回想,人生每个阶段的经历与回忆都萦绕着不同的声音,夏日的蝉鸣与篮球场上的聒噪是青春,傍晚的叹息与手机消息的提示音是成长。正如人们哪怕紧紧捂住耳朵或戴上降噪耳机也无法完全关停听觉一样,声音,无处不在。

从物理学的角度来看,声音是由物体振动产生的声波,能够通过空气介质传播,所以,只有在完全真空的环境才能够隔绝声音。从另一个角度来看,作为语言的载体,声音不仅是交流的重要媒介,同时也是情绪外化的出口。而随着 AI 的蓬勃发展,分析技术与相关能力日益强大,原本缥缈于空气中的声波也变成了可供研究的数据,甚至能够反映出人体的健康状况。

近年来,基于语音的疾病检测技术已经开始在呼吸科、心内科、肠胃科等领域崭露头角。相较而言,音频在精神疾病诊疗上的应用则是半忧半喜:忧的是相关音频数据严重匮乏(主要由精神疾病的高度隐私性导致);喜的则是基于音频的线上病情诊断,可以在初诊阶段帮助患者缓解病耻感,尽快判别是否患病。

中国科学院院士陆林在一次采访中曾提到,截止 2021 年底,全国数据库里登记在册的重性精神障碍患者有 660 万,其中接受治疗的人数不超过 20% 。大力拓展推广基于音频分析的诊断方式,对于解决精神疾病的低就诊率具有重要意义。

上海交通大学计算机系副教授,博士生导师吴梦玥课题组,就曾发布了面向精神疾病诊疗的言语智能模型,基于大语言模型模拟了医生与患者的不同角色,并在人类精神疾病诊断医生的共同参与下,构建了全世界第一个符合临床标准的开源抑郁症问诊对话数据集。

吴梦玥 上海交通大学计算机系副教授,博士生导师

恰值「国际妇女节」来临,HyperAI 超神经有幸与吴梦玥老师进行了一次深度访谈,进一步了解到了声音的魅力及其与 AI 产生的奇妙反应,同时也看到了一位坚定、洒脱的女性,是如何从兴趣出发,并逐步在专业领域有所建树的。

兴之所至,坚持做可落地的研究

每个人的声道、口腔、鼻腔等都存在细微差别,因此人的声纹与指纹、人脸一样具有差异性。吴梦玥自小便对人与人说话方式的独特性非常感兴趣,日常生活中的「闻声识人」可以说是带领她走进音频世界的云梯。

本科时期,对声音高度敏感并饶有兴趣的吴梦玥,在北京师范大学研究心理声学,期间她在技术层面认知到了用物理声学特征来解释声音差别的重要性,并在毕设阶段选择了用计算建模的方式分析声学数据。

吴梦玥在大学期间赴陕西支教

如果说本科阶段在心理声学领域展开音频分析研究的早期尝试,是在吴梦玥心里埋下了一颗种子,那么博士期间近距离接触到的两个相关研究项目,便是一剂催化剂。

读博期间,她一位进行精神分裂患者语音分析研究的同学,在田野调查期间接触了大量患有精神分裂的街头流浪汉,另一位室友则在临床心理学博士毕业后,进入墨尔本监狱为犯人进行精神疾病评估,以解释其相关的犯罪行为是否受精神疾病影响。

这两位同学的经历给吴梦玥带来了深刻的启发和影响,回国后,她便开始围绕精神疾病诊疗进行更加深入的研究。

她表示,在语音学领域,语音和语言其实都是人类大脑功能的外化表现,所以,无论是情绪障碍还是认知功能障碍,最终都会在语音和语言的表达上留下线索,换言之,在音频中能够找到相关的生物标记物,对精神障碍或情感障碍人群进行有效、便捷地筛查。

吴梦玥与团队师生参加 Interspeech 2023 会议

从某种意义上讲,在人们踌躇不决是否就诊、如何就诊时,音频分析能够成为精神疾病诊断中的第一张检查单,并在一定程度上弱化患者病耻感。

一直以来,吴梦玥心中所坚守的就是「要做落地的研究」,博士毕业后,吴梦玥收到了 AI 语音识别公司 Nuance Communications  的邀请,试图在产业端从事座舱人机交互方面的技术研究和落地。后来在与上海交大计算机科学与工程系教授俞凯的一次对话中,她通过俞凯教授的经历,也看到了高校内的科研优势与成果转化新思路,进而从业界回归学术界。

吴梦玥坦言,无论是在高校还是在工业界,「要做落地的研究」的初心从未改变。疫情期间,其研究团队就从现实需求出发,开发了一个实用的抑郁症问诊小程序,学生能够直接使用。

丰富音频分析,攻克数据不足问题

回到高校后,吴梦玥仍然选择了音频分析的研究方向,并将更多 AI 技术融入其中。目前,其课题组的主要研究方向是丰富音频分析 (Rich Audio Analysis),通俗来讲就是除了语音识别之外的所有音频处理。

吴梦玥介绍道,声音可以分为三个层次,其一是人说了什么话,这便是语音识别的研究重点;其二是人怎么说话,即同样一句话会有多种不同的表达方式,其背后蕴含了不同的含义,而这恰恰能够用来检测一个人的精神状态或认知功能;其三是对环境音频的理解,这也是让机器在音频理解方面更像人类的关键。以上便构成了丰富的音频分析,其中语音识别目前已经相对成熟了,所以她的研究重点就放在了后两者上。

目前,吴梦玥的课题组共有二十余个学生,围绕这两个方向开展相关研究——计算精神病学与音频理解中的病理语音研究。

课题组研究成果

具象到应用场景,例如在驾驶环境中,语音识别是指交互系统被动识别指令、执行相应的控制。如果能做到主动交互,就可以根据驾驶人说话的语气来判断他的情绪或是疲劳情况,进而通过车内灯光或音效来调节情绪,同时,当机器感知到用户语气不佳时,也能够同步调整回复指令时的策略和思路。

再比如,疫情期间通过利用拾音器来收集开关门的环境音,分析判断离家/居家状态,跟传统摄像头监控来比,这一方法更有助于保障人员隐私安全。

固有印象中,声音数据应该是样本量极大且极为丰富的,但其实在细化到疾病诊疗、尤其是精神疾病领域的时候,数据却成为了一大挑战。一方面,医患隐私关系与患者的病耻感导致心理咨询的对话音频极难获取;另一方面,部分医院或医生可能会以对话的形式进行问诊记录,但是并没有形成规范性数据,音频质量往往不高,加之隐私保护,往往无法对外分享。

为此,吴梦玥带领研究团队构建了全球第一个符合临床标准的开源抑郁症问诊对话数据集。首先是通过在精神卫生中心与医生和患者进行长时间的深度沟通,沉淀问诊流程与对话要点,进而将相关内容整理成决策树结构的对话流程,并与专业医生共同反复推敲调整。其次还通过角色扮演的形式,进行了医患对话的模拟,最终请专业医生对所获得的数据进行筛选,得到了更加接近临床问诊的数据,从而形成了这一开源数据集。

数据集链接:https://x-lance.github.io/D4/

与其他从事 AI for Science  研究的学者类似,心理学与计算机交叉学科的背景,使得吴梦玥在推进 AI 赋能精神疾病诊疗的过程中,既能够切中当下患者的实际痛点,也能够在研究遇到挑战时以仿真数据的形式灵活地调整研究策略。交叉学科背景往往能够更富有创造性地为科研领域带来创新突破。

吴梦玥出席 CHINC 2022 会议并发表演讲


兴趣驱使 ,亦能大有作为

在与吴梦玥的访谈中,笔者数次听到了「兴趣」二字——专注音频研究是从兴趣出发;对精神疾病诊断的相关研究感兴趣;转向计算机系并不是追赶潮流,而是自身感兴趣;对课题组学生的考量也是希望兴趣优先……

不可否认,无论是严谨的学术研究或是快节奏的职场工作,「兴趣」都是一块养分更加充足土壤,播种于幼年,向上生长的驱动力也更加强劲。吴梦玥老师立足兴趣的同时,虽然「佛系」却并不懈怠,无论是在论文发表频次上的科研积累,还是产研融合上的落地应用,都是她践行「做可落地研究」的有力证明。

近些年来,越来越多的女性力量开始活跃于科技、科研领域,带来了惊艳世人的革命性创新,联合国妇女署也将今年的国际妇女节主题定为「投资于妇女:加速进步」,在一定程度上彰显了女性在社会进程中的重要作用。

虽然笔者并不愿过多着墨于强调两性差异,但在真实的社会环境中,压力确实存在。不过正如吴梦玥所言,「要以快乐为主,从兴趣出发」。尤其是在外界并没有给予女性过高期待时,其实也意味着没有过多限制,或许反而提供了积蓄力量、择机爆发的成长空间。

最后,在这个特殊的节日里,祝所有女性都能够像吴梦玥老师一样,成长于兴趣,自信地汲取养分,绽放更精彩洒脱的人生!