新闻出版商因AI数据爬取担忧,限制互联网档案馆访问
随着人工智能公司大规模采集网络内容用于模型训练,多家主流新闻机构正重新评估与互联网档案馆(Internet Archive)的合作关系,开始限制其对新闻内容的访问。 《卫报》和《纽约时报》等媒体发现,互联网档案馆的爬虫频繁抓取其网页内容,可能成为AI公司绕过版权壁垒、获取训练数据的“后门”。为此,《卫报》已采取措施,通过robots.txt文件屏蔽其“archive.org_bot”爬虫,并将文章页面从Wayback Machine的URL索引中移除,仅保留部分公共页面。该机构强调,此举旨在防范潜在的知识产权泄露风险,而非否定档案馆的公共价值。 《纽约时报》也实施了“硬性屏蔽”,明确禁止互联网档案馆的爬虫访问其内容,并在2025年底将相关爬虫列入robots.txt黑名单。该报表示,其内容受版权保护,任何未经授权的批量获取都构成侵权。 类似举措也出现在其他媒体。Reddit在2023年宣布限制互联网档案馆访问其存档内容,因其曾被用于AI训练。而Gannett集团旗下的多家报纸(如《今日美国》)也在2025年陆续屏蔽了多个互联网档案馆爬虫,部分站点甚至显示“此链接已被排除在存档之外”。 尽管互联网档案馆创始人布雷斯特·卡勒(Brewster Kahle)强调其使命是保护数字历史,反对内容封锁,但现实是,其庞大的公共数据集正被AI公司利用。分析显示,Wayback Machine曾被用于训练谷歌T5和Meta Llama等模型。2023年,一次AI公司发起的高频请求甚至导致档案馆短暂宕机。 目前,互联网档案馆虽未主动屏蔽任何爬虫,但已通过限速、过滤和Cloudflare等安全机制控制大规模访问。然而,越来越多新闻机构正通过robots.txt主动设限。一项对1,167家新闻网站的分析发现,241家明确禁止至少一个互联网档案馆爬虫,其中87%为Gannett旗下媒体。更值得注意的是,93%的站点同时屏蔽了Common Crawl——另一个常被AI公司使用的开放数据源。 这一趋势反映出新闻机构在保护知识产权与支持公共信息存档之间的艰难权衡。尽管互联网档案馆在数字遗产保存方面不可或缺,但其开放性也使其成为AI数据采集的“意外通道”。正如《卫报》负责人罗伯特·哈恩所言:“初衷良好,却可能被滥用。”
