TrainAI研究:Claude Sonnet、GPT和Gemini Pro在合成数据生成领域脱颖而出
近日,总部位于英国的全球领先语言服务提供商RWS Holdings plc发布了一项关于大型语言模型(LLM)生成合成数据能力的研究。该研究由RWS的技术解决方案负责人Tomáš Burkert领导,通过人类专家评估的方式,测试了九个流行的大型语言模型在六个不同复杂度的数据生成任务上的表现,涵盖了八种具有代表性的语言。 与常见的自动化LLM评估方法不同,这项研究邀请了全球27位语言学专业人员对模型生成的内容进行了详细的人类评测。评估标准包括语法准确度、自然流畅度、指令遵循度、创造力、速度和成本等多个方面。整个研究过程中,共生成了3.8万条句子,得到了11.5万个注释和25万个评分,每个语言的任务都由三位母语使用者专门负责。 结果显示,Claude Sonnet、GPT和Gemini Pro在大多数任务中表现优异,尤其在语言熟练度、创造力等方面表现突出。但没有一个模型在所有任务和语言上都能取得最佳成绩。Claude Sonnet在多语言处理方面较为擅长,GPT则在创造力和指令遵守方面表现出色,而Gemini Pro则以其高效生成速度和较低的成本获得了好评。 RWS的企业服务总裁Vasagi Kothandapani表示:“我们的研究表明,在不同的AI应用场景中,选择合适的LLM至关重要。每款模型都有其特有的优势和局限,企业需要根据具体需求进行评估,才能最大化利用这些模型带来的价值。”她认为,这一研究结果对于当前面临数据短缺困境的AI巨头们具有重要意义,他们正在探索利用合成数据来训练和优化新一代AI模型。 这项研究的初衷是探究目前最先进的LLM是否能够有效生成高质量的合成数据,从而解决大型科技公司在新模型训练中遇到的数据匮乏问题。研究发现,虽然LLM生成的合成数据在某些方面表现出色,但在涉及多种语言和任务时,仍需综合考虑不同模型的优势,选择最合适的一款或多款模型进行使用。 RWS Holdings plc成立于1958年,拥有超过60年的行业经验,主要为全球客户提供多语言技术服务、内容管理和知识产权保护。公司在AI领域已有深厚积淀,持有45项以上AI相关专利,并发表了100多篇同行评审论文。RWS的服务覆盖了汽车、化工、金融、法律、医疗、制药、技术和电信等多个行业,合作客户包括世界百强品牌中的80%以上以及《财富》杂志评选的“最受尊敬公司”中的四分之三。RWS在全球五大洲拥有60多个办事处,致力于通过文化和技术理解帮助客户在全球范围内实现更好的沟通和扩展。 RWS的技术研究为行业提供了宝贵的参考,表明虽然LLM在生成合成数据方面具备巨大潜力,但企业在选择时仍需谨慎评估,以确保能够在实际应用中发挥最大效用。