Meta 秘密消融实验显著提升 Llama AI 模型性能
一场高调的法律诉讼揭露了Meta公司在人工智能(AI)领域的秘密实验,尤其是关于其Llama模型的训练数据选择过程。这些内部文件显示,Meta研究人员使用了一种名为“消融”(ablation)的技术,通过移除或替换部分训练数据来评估其对模型性能的影响。2025年1月,Meta在法律文件中透露,他们曾用LibGen数据库中的盗版书籍替代部分训练数据,然后重新训练Llama模型。 在一项实验中,Meta添加了科学、技术和小说类书籍,另一项实验中则仅添加小说类书籍。内部文件显示,这些实验显著提高了Llama模型在行业基准测试中的表现。例如,添加科学、技术及小说书籍后,Llama在BooIQ基准测试中的表现提升了4.5%,而仅添加小说书籍后,这一数字达到了6%。在另一项名为SIQA的基准测试中,模型的性能更是提高了5.5%。 “消融”技术在Meta公司及整个AI行业中极为常见。Meta的一位工程师在LinkedIn上透露,他们在开发Llama 4及其早期版本的过程中进行了超过100次消融实验。然而,Meta从未公开过这些实验的结果,即使对于开源模型也是如此。其他AI公司也遵循同样的做法,将这些敏感信息保密。 这种保密行为彰显了科技公司对版权问题的担忧。公开具体数据集对模型性能的影响,可能会引发版权所有者要求补偿。Simon Fraser大学计算科学助理教授Nick Vincent指出:“公开这些数据值估计可能会影响大型科技公司在美国版权诉讼中的立场。”Meta发言人表示,公司不认同诉讼中的主张,并继续为生成式AI的健康发展辩护。 2017年,Google的一项开创性研究详细披露了使用的训练数据,指出他们使用了《华尔街日报》中的约40,000个句子。而OpenAI在其GPT-2论文中也描述了如何通过Reddit上的链接抓取网页内容。但现在,公司普遍避免公开具体数据来源,Meta在发布Llama 4时,仅笼统表示数据集来自公开可用的、许可的数据以及Meta产品和服务。 ProRata公司的CEO Bill Gross认为,这种保密行为对内容创作者极不公平。他提出,创作者应当为每次使用他们的数据进行AI训练,以及每次模型输出内容时受到这些数据影响而获取报酬。这种想法并不孤单,越来越多的业内人士呼吁建立一个更加公平的数据使用和补偿系统。 这些实验不仅展示了特定数据对AI模型性能的重要影响,还引发了关于版权和数据权益的广泛讨论。Vincent希望通过这些公开的实验结果,能够促进AI领域更加透明和公正的数据使用机制。毕竟,所有AI产品都建立在人类创造的内容和知识基础之上,没有这些数据的支持,AI模型很难达到当前的性能水平。他强调,确保知识创造和分享的可持续性至关重要。 Meta作为全球领先的科技公司之一,其AI模型Llama系列在市场上表现突出。业内人士认为,这些保密的实验结果可能为其他公司提供宝贵的经验,但同时也引发了关于版权和数据权益的伦理问题。 höchstens 600 Zeichen Meta的秘密实验不仅揭示了科技公司在开发AI模型时采用的创新技术,也为版权问题的解决提供了新的视角。业内人士普遍支持建立更为透明、公平的数据使用机制,以保障内容创作者的合法权益。(cp)