Perplexity被曝利用AI数据陷阱冒充谷歌引发信任危机
一场针对AI数据爬取行为的“陷阱行动”揭露了AI初创公司Perplexity的违规操作。这家与ChatGPT、Google Gemini等竞争的AI服务商,被云服务公司Cloudflare抓了个正着——它在未经授权的情况下,绕过网站防护机制,秘密抓取网页内容。 在AI竞争日益激烈的背景下,高质量数据成为核心资源。然而,许多科技公司不愿付费获取数据,转而通过网络爬虫免费抓取网页内容,引发内容创作者和平台的广泛不满。Cloudflare作为支撑全球约20%互联网流量的基础设施与安全公司,正积极保护网站的版权和数据主权。近期,其部分客户反映,Perplexity持续绕过其设置的反爬机制,非法获取数据。 为此,Cloudflare设下“数字陷阱”:创建了一批未公开、无链接、无搜索引擎收录的测试网站,并在这些站点的robots.txt文件中明确禁止所有爬虫访问,包括Perplexity官方标注的爬虫(PerplexityBot和Perplexity-User)。然而,当Cloudflare用问题测试Perplexity的AI系统时,后者竟能准确回答关于这些封闭页面的详细内容——这只能说明,Perplexity已非法访问了这些受保护的数据。 更令人质疑的是,Perplexity在被正式阻止后,转而使用隐蔽手段。Cloudflare发现,该公司部署了未公开的爬虫,伪装成普通浏览器,通过随机或非官方的IP地址和ASNs(自治系统编号,用于标识互联网网络的管理实体)发起请求。此外,它还使用了模拟苹果Mac电脑上Chrome浏览器的通用浏览器,试图伪装成主流用户行为。 相比之下,OpenAI的爬虫在遇到robots.txt限制时,会立即停止访问,未发现任何规避行为。Cloudflare强调,这种合规性是维系开放互联网信任的基础。 最终,Cloudflare将Perplexity从其“可信机器人”名单中移除,并在全球网络中部署新检测机制,全面封禁其爬虫活动。这一事件警示所有AI企业:在数据饥渴时代,尊重网络规则、遵守公开协议,是可持续发展的前提。否则,不仅会被技术封锁,更可能面临公开曝光与声誉损失。