EleutherAI 推出 8TB 开源文本数据集,挑战版权争议并促进透明度
EleutherAI,一个专注于人工智能研究的组织,最近发布了一个名为“The Common Pile v0.1”的大型训练数据集,声称这是目前最大的许可和公开领域文本集合之一。该数据集的容量达到了8太字节(TB),历时两年完成,由AI初创企业Poolside、Hugging Face以及多个学术机构共同协作开发。为了强调其数据集的合法性和透明度,EleutherAI咨询了法律专家,数据来源包括30万册公共领域书籍,这些书籍由国会图书馆和互联网档案馆数字化,此外还使用了OpenAI的开源语音转文字模型Whisper来转录音频内容。 近年来,多家AI公司因未经许可使用网络上的版权材料(如书籍和研究期刊)来构建模型训练数据集而陷入诉讼漩涡。这不仅包括数据的抓取,还包括在未获得明确授权的情况下使用这些版权内容。尽管一些公司与特定内容提供商签订了许可协议,但大多数公司认为美国的“公平使用”原则可以保护他们免于法律责任。然而,这些诉讼导致了AI公司在数据来源和使用权方面的透明度显著下降,影响了整个AI研究领域的开放和共享精神。EleutherAI的执行董事Stella Biderman在Hugging Face平台上的一篇博客中表示:“版权诉讼并没有真正改变模型训练的数据获取实践,但极大地减少了公司的透明度。” 为了证明公开许可数据同样能够训练出高性能的AI模型,EleutherAI利用The Common Pile v0.1训练了两个新的AI模型:Comma v0.1-1T和Comma v0.1-2T。这两个模型都具有70亿参数,虽然只使用了数据集的一部分进行训练,但据称在编程、图像理解和数学等多个基准测试中表现得与Meta的首个Llama模型相当。参数是AI模型内部用来指导其行为和回答问题的关键组成部分,通过调整这些参数,模型能够学习并优化自己的性能。 Biderman在博客中指出,越来越多的公开许可和公共领域数据的接入将有望提升基于这些数据训练出的模型的质量。她写道:“我们认为,普遍认为未经授权的文本能驱动性能提升的观点是没有根据的。随着可用的公开许可和公共领域数据量的增加,我们可以预期这些数据训练出来的模型质量会不断提高。” The Common Pile v0.1的发布也被视为是对EleutherAI过去错误的纠正。早前,该组织曾发布过一个包含版权材料的数据集The Pile,这也引发了业界的一些争议和法律压力。现在,EleutherAI承诺未来将更频繁地发布开放数据集,与研究和基础设施合作伙伴紧密合作,推动AI的透明和健康发展。 行业内人士认为,EleutherAI此举意义重大,有助于提升AI研究的伦理标准,促进数据集的合法性与透明度,为更广泛的开发者社区提供宝贵资源。EleutherAI作为一家非盈利性的研究组织,一直致力于推动AI技术的发展和社会应用,这次发布的高质量数据集再次展现了其在推动行业进步方面的贡献。