谷歌发布Gemma系列新模型:AI助力医疗、手语翻译与海豚语言研究
谷歌近日宣布推出基于Gemma模型的三款全新变体:MedGemma、SignGemma和DolphinGemma,分别在医疗、手语翻译和海豚语言研究领域展现出巨大潜力。这些模型的研发和应用预示着AI技术在各个领域的深度融合和创新步伐。 首先,MedGemma是谷歌专门面向医疗行业的AI模型,分为4B多模态模型和27B文字推理模型两种版本。4B多模态模型可以在单块GPU上高效运行,处理包括胸部X光片、皮肤科图像、眼科图像和病理切片在内的多种医疗影像数据,从而提高医疗影像诊断、报告生成和患者分诊的准确性。27B文字推理模型则更注重纯文本处理,具备强大的推理能力,适用于病历分析和医疗问答等需要深入理解的任务。谷歌表示,这两款模型已通过Health AI Developer Foundations计划对外开放,旨在加速医疗应用的开发,推动精准医疗的发展。 其次,SignGemma是一款专门设计用于手语翻译的开放模型,主要支持美国手语(ASL)到英语的翻译。该模型能够将手语动作转化为口头语言,大大提升了聋哑患者与外界的沟通效果。谷歌称其为“迄今为止最强大的手语理解模型”,表现极为出色。未来的多语言支持拓展计划将进一步促进全球聋哑社区的无障碍沟通。基于SignGemma,开发者可以开发出各种创新应用,如实时手语翻译工具和教育平台,为聋哑群体提供更多便利。 最后,DolphinGemma是谷歌与Wild Dolphin Project(WDP)和乔治亚理工学院合作开发的模型,专注于分析和生成海豚的复杂声音。这款模型基于40年的北大西洋斑点海豚声学数据,能够识别签名哨声、脉冲爆裂声等特定声音模式,并预测声音序列,类似于人类语言模型的工作机制。它已集成到WDP的CHAT(Cetacean Hearing Augmentation Telemetry)系统中,通过智能手机接口实现实时分析。研究人员甚至借助合成哨声实现了与海豚的初步互动,例如要求海豚与特定物体互动。谷歌计划在2025年夏季将DolphinGemma开源,吸引更多研究者的参与,推动跨物种沟通的研究进展。 这些模型不仅展示了AI技术在具体领域的强大应用能力,也反映了谷歌在开放性和合作方面的积极态度。然而,非标准的许可条款也引起了一些开发者的担忧,尤其是在商业应用方面。未来,谷歌可能需要进一步优化许可政策,以增强这些模型的商业化潜力。 业内专家表示,谷歌此次推出的三款Gemma模型变体,标志着AI技术在多个实际应用场景中的重要突破。这不仅是技术上的创新,更为医疗、无障碍沟通和社会科学研究提供了新的可能性。与此同时,谷歌作为全球领先的科技公司,在AI领域的持续投入和技术共享,也将进一步推动整个行业的快速发展。