知识共享组织首度支持AI“付费爬取”系统,推动数据使用新范式
非营利组织Creative Commons(CC)近日表示,对“付费爬取”(pay-to-crawl)技术持“谨慎支持”态度。该系统旨在通过向AI网络爬虫收取费用,实现对网站内容被AI模型训练时的自动化补偿。 此前,CC在7月推出了旨在推动AI数据共享的法律与技术框架,如今进一步表态支持付费爬取机制。其博客指出,若能负责任地实施,此类系统有助于网站维持内容创作与开放共享,防止优质内容因缺乏激励而消失或被更严格的付费墙封锁。 传统上,网站允许搜索引擎爬虫免费抓取内容,以换取搜索流量和用户访问。但随着AI聊天机器人直接生成答案,用户往往不再点击原文链接,导致媒体和内容创作者的流量与收入大幅下滑。付费爬取被视为一种应对策略,尤其对中小型网站更具意义——它们难以像大型媒体那样与AI公司单独谈判内容授权。 目前,Cloudflare正牵头推动该模式,微软也在构建面向出版商的AI市场,而ProRata.ai、TollBit等初创企业也相继进入这一领域。与此同时,名为RSL Collective的组织推出了“真正简单的许可”(Really Simple Licensing,RSL)标准,允许设定爬虫可访问的内容范围,但不强制阻止访问,旨在平衡商业利益与公共获取。 Cloudflare、Akamai、Fastly等多家技术公司已采纳RSL标准,Yahoo、Ziff Davis、O’Reilly Media等也表示支持。CC也加入支持行列,并将其与自身“CC Signals”项目——一个为AI时代打造技术工具的倡议——相结合。 尽管支持,CC仍提出多项风险警示:该机制可能加剧网络权力集中,影响研究机构、非营利组织、教育者和文化遗产机构等公共利益方的访问权限。因此,它建议实施时应避免默认启用、禁止一刀切规则,支持流量控制而非完全封锁,并确保系统开放、互操作、采用标准化组件,以保障公平与透明。
