创意共享发布CC信号,促进开放AI生态系统中的数据共享
非营利组织Creative Commons(简称CC)长期以来一直致力于推动创作共享运动,使创作者在保留版权的同时能够分享作品。为了应对人工智能(AI)时代的新挑战,CC于本周三宣布推出一个名为“CC signals”的新项目。该项目旨在为数据集持有者提供一种详细说明其内容能否被机器重新使用的框架,特别是在训练AI模型方面。 当前,互联网上的数据提取活动日益频繁,这不仅侵蚀了网络的开放性,还使得一些实体开始设置付费墙或阻止外部访客访问数据,而不是开放共享。为此,CC signals提出了一种既具有法律效力又带有伦理分量的解决方案,旨在平衡互联网的开放精神与AI行业的数据需求。 CC表示,这一项目的工具将提供一系列选项,让数据控制者可以选择许可或限制其数据被用于AI训练,从而避免一刀切的做法。目前,许多公司正面临着如何调整政策和服务条款以应对AI训练的问题。例如,社交媒体平台X最初允许第三方在其公共数据上训练AI模型,但后来又撤销了这一决定。Reddit则通过其robots.txt文件限制了自动化爬虫对其数据的抓取。Cloudflare则计划对抓取数据的AI机器人收费,并开发工具来混淆这些机器人的数据采集工作。此外,开源开发者也建立了一些机制,用以减缓和消耗不遵守“禁止爬取”指令的AI爬虫资源。 相比之下,CC signals采取了一种更全面的策略,希望通过创建一种新的共享机制来促进AI生态系统的健康发展。CC首席执行官Anna Tumadóttir表示:“CC signals旨在维持互联网公地在AI时代的持续发展。正如CC许可证帮助建立了开放的互联网一样,我们相信CC signals将有助于构建一个基于互惠的开放AI生态系统。” 该项目正处于初步阶段,早期设计已在CC官网和GitHub页面发布。CC计划于2025年11月进行alpha测试(早期测试),并在测试前积极征集公众反馈。为了更好地收集意见和解答问题,CC还将举办一系列的社区讨论会。 行业专家认为,CC signals的推出对于维护网络数据的开放性和促进AI的健康发展具有重要意义。Creative Commons作为一家久负盛名的非营利机构,其在全球范围内推动的创作共享理念已经涵盖了数十亿件创意作品,此次项目同样有望为AI时代的数据共享制定新的标准。