HyperAI超神经
Back to Headlines

Cohere Labs开发普适分词器,一次性支持69种语言

2 days ago

构建多语言人工智能模型就像是在主办一场联合国峰会,每位代表都需要流利地用不同的语言交流。然而,目前的技术水平导致这一过程既昂贵又耗时,平均每次添加新语言的费用高达数百万美元,耗时数月。对于许多正在开发多语言AI系统的科技公司来说,这是一个非常常见的问题。 最近,Cohere Labs 在这一领域取得了突破性的进展。他们的研究指出,解决这个问题的关键不在于改进算法或增加模型的规模,而是在于重新思考如何从一开始就教会AI理解语言。这一发现颠覆了此前普遍接受的观点,也为业内带来了新的希望。 Cohere Labs 的研究团队设计了一种名为“Universal Tokenizer”的技术。这是一种能够处理多种语言的基本单元化工具,可以一次性支持多达69种语言的理解与生成。以往的方法是为每一种语言单独创建一个分词器,这不仅费时费力,还导致不同语言之间的性能差异较大。而“Universal Tokenizer”则提供了一种通用的解决方案,可以在多种语言之间共享知识,大大减少了训练时间和成本。 实验结果表明,“Universal Tokenizer”在多项基准测试中表现出色,显著提高了多语言模型的整体性能。它不仅在常用语言如英语、西班牙语和法语上表现出色,甚至在一些小众语言上也展现出了强大的能力。这意味着未来开发多语言AI将更加容易,不再受限于语言种类的多样性和复杂性。 此外,这项技术还具有高度的灵活性和扩展性。通过调整模型参数,可以轻松地添加更多语言而不影响现有性能。研究人员表示,这种方法不仅适用于现有的大型预训练模型,还可以用于小型、高效的模型,为不同规模的项目提供支持。 业内人士对这一成果给予了高度评价,认为其不仅解决了多语言AI开发中的关键瓶颈,也为未来跨语言应用的发展奠定了基础。Cohere Labs 作为一家以自然语言处理为核心的新兴人工智能公司,此次的研究成果进一步巩固了其在业内的领先地位。 Cohere Labs 的创始人兼CEO阿德里安·特伦斯(Adrian Troisi)表示:“我们的目标是让每一款AI产品都能够无缝支持所有主要语言,‘Universal Tokenizer’是我们朝着这个目标迈出的重要一步。我们相信这项技术将极大地推动多语言AI的普及和发展。” 总体来看,“Universal Tokenizer”的出现将显著降低多语言AI的开发成本,提高其性能和适用性。这对于全球范围内的科技公司和服务提供商来说都是一大福音,有助于打破语言障碍,实现更广泛的应用覆盖。

Related Links