HyperAI

构建多语言人工智能模型就像是在主办一场联合国峰会，每位代表都需要流利地用不同的语言交流。然而，目前的技术水平导致这一过程既昂贵又耗时，平均每次添加新语言的费用高达数百万美元，耗时数月。对于许多正在开发多语言AI系统的科技公司来说，这是一个非常常见的问题。最近，Cohere Labs 在这一领域取得了突破性的进展。他们的研究指出，解决这个问题的关键不在于改进算法或增加模型的规模，而是在于重新思考如何从一开始就教会AI理解语言。这一发现颠覆了此前普遍接受的观点，也为业内带来了新的希望。 Cohere Labs 的研究团队设计了一种名为“Universal Tokenizer”的技术。这是一种能够处理多种语言的基本单元化工具，可以一次性支持多达69种语言的理解与生成。以往的方法是为每一种语言单独创建一个分词器，这不仅费时费力，还导致不同语言之间的性能差异较大。而“Universal Tokenizer”则提供了一种通用的解决方案，可以在多种语言之间共享知识，大大减少了训练时间和成本。实验结果表明，“Universal Tokenizer”在多项基准测试中表现出色，显著提高了多语言模型的整体性能。它不仅在常用语言如英语、西班牙语和法语上表现出色，甚至在一些小众语言上也展现出了强大的能力。这意味着未来开发多语言AI将更加容易，不再受限于语言种类的多样性和复杂性。此外，这项技术还具有高度的灵活性和扩展性。通过调整模型参数，可以轻松地添加更多语言而不影响现有性能。研究人员表示，这种方法不仅适用于现有的大型预训练模型，还可以用于小型、高效的模型，为不同规模的项目提供支持。业内人士对这一成果给予了高度评价，认为其不仅解决了多语言AI开发中的关键瓶颈，也为未来跨语言应用的发展奠定了基础。Cohere Labs 作为一家以自然语言处理为核心的新兴人工智能公司，此次的研究成果进一步巩固了其在业内的领先地位。 Cohere Labs 的创始人兼CEO阿德里安·特伦斯（Adrian Troisi）表示：“我们的目标是让每一款AI产品都能够无缝支持所有主要语言，‘Universal Tokenizer’是我们朝着这个目标迈出的重要一步。我们相信这项技术将极大地推动多语言AI的普及和发展。” 总体来看，“Universal Tokenizer”的出现将显著降低多语言AI的开发成本，提高其性能和适用性。这对于全球范围内的科技公司和服务提供商来说都是一大福音，有助于打破语言障碍，实现更广泛的应用覆盖。

Cohere Labs开发普适分词器，一次性支持69种语言

Related Links