Back to Headlines

Reddit封禁Wayback Machine抓取存档帖子

10 天前

Reddit近日宣布限制互联网档案馆(Internet Archive)的Wayback Machine对其网站的索引权限,仅允许其抓取主页,而不再允许访问帖子详情页、评论区和用户个人资料页面。此举源于Reddit发现,部分人工智能公司正通过Wayback Machine绕过其数据访问政策,非法获取用户内容用于训练AI模型。 Reddit表示,尽管互联网档案馆本身是服务于开放网络的非营利组织,但其提供的服务被一些AI企业滥用,用于规避与Reddit达成的数据授权协议。尽管此前Reddit曾表示对“善意使用者”如互联网档案馆保持开放态度,但如今已认定部分AI公司利用其存档数据进行未经授权的爬取,违反了平台政策,尤其是涉及用户隐私和已删除内容的处理问题。 此次限制措施已开始逐步实施,Reddit提前向互联网档案馆发出通知。此举反映出在AI快速发展的背景下,数据授权正成为科技公司的重要收入来源。Reddit已与谷歌、OpenAI等公司达成数千万美元级别的数据合作,允许其在支付费用后使用平台内容进行AI训练和搜索索引。与此同时,Reddit也于今年6月起诉AI公司Anthropic,指控其在承诺停止后仍持续非法抓取数据。 互联网档案馆方面尚未立即回应置评请求,但其负责人马克·格雷厄姆(Mark Graham)表示,该机构与Reddit保持长期合作关系,并正在就相关问题进行持续沟通。 这一事件凸显出数字时代内容所有权与数据使用的复杂博弈:一方面,公众对开放获取信息的期待与非营利组织的使命相契合;另一方面,平台为保护用户隐私和自身商业利益,正日益加强对数据流向的控制。随着AI训练对海量数据的依赖加深,如何在开放与保护之间取得平衡,已成为全球科技与法律界亟待解决的难题。

Related Links

Reddit封禁Wayback Machine抓取存档帖子 | 头条 | HyperAI超神经