HyperAIHyperAI

Command Palette

Search for a command to run...

Reddit起诉多家初创公司非法采集数据用于AI训练

一家网站若在其服务条款中明确禁止用户使用机器人程序抓取其网页内容,而你却绕过这一限制,转而通过搜索引擎结果页面获取相同文本,并将其用于训练AI模型并商业化,你是商业天才,还是窃贼?从法律角度看,答案可能取决于法院如何解读“公开数据”的边界。 近日,Reddit在纽约提起新诉讼,将四家数据抓取公司告上法庭,试图阻止这种“间接抓取”行为。这起案件是平台与AI数据猎手之间持续拉锯战的最新一环。此前,LinkedIn也对ProAPIs公司提起诉讼,指控其通过自动化账户获取用户数据,而这些数据本应受登录墙保护。 在此次Reddit的诉讼中,最引人注目的被告是Perplexity AI——这家以AI搜索引擎闻名的公司,因在数据获取上“大胆”而广受关注。其他三家公司——美国的SerpApi、立陶宛的Oxylabs和俄罗斯的AWMProxy——则被指采用更隐蔽的策略:不直接访问Reddit,而是从Google等搜索引擎的搜索结果中抓取Reddit内容,再将数据出售给OpenAI、Meta等科技巨头。 Oxylabs代表Denas Grybauskas回应称,其立场是“没有公司能对不属于自己的公共数据主张所有权”,这代表了当前许多数据抓取公司的核心法律论点:只要信息在公开网络上,就应被视为可自由使用。 然而,Reddit的胜诉之路并不平坦。首先,此案在纽约提起,而被告多位于海外,涉及跨国法律执行难题。其次,历史判例显示,平台的控诉未必总能成功。例如,埃隆·马斯克旗下的X(原Twitter)曾就类似问题提起诉讼,但去年被法院驳回。法官指出,若允许平台对网络数据施加过强控制,可能形成“信息垄断”,反而损害公共利益。 这起诉讼的最终结果,或将决定未来AI训练数据的获取方式:是继续依赖“公开可得”但非授权的网络信息,还是必须通过授权合作、支付费用获取?目前尚无定论,但可以肯定的是,这场围绕“数据所有权”与“公共访问权”的法律博弈,正进入更复杂、更全球化的阶段。

相关链接

Reddit起诉多家初创公司非法采集数据用于AI训练 | 热门资讯 | HyperAI超神经