HyperAI超神经

一场针对AI数据爬取行为的“陷阱行动”揭露了AI初创公司Perplexity的违规操作。这家与ChatGPT、Google Gemini等竞争的AI服务商，被云服务公司Cloudflare抓了个正着——它在未经授权的情况下，绕过网站防护机制，秘密抓取网页内容。在AI竞争日益激烈的背景下，高质量数据成为核心资源。然而，许多科技公司不愿付费获取数据，转而通过网络爬虫免费抓取网页内容，引发内容创作者和平台的广泛不满。Cloudflare作为支撑全球约20%互联网流量的基础设施与安全公司，正积极保护网站的版权和数据主权。近期，其部分客户反映，Perplexity持续绕过其设置的反爬机制，非法获取数据。为此，Cloudflare设下“数字陷阱”：创建了一批未公开、无链接、无搜索引擎收录的测试网站，并在这些站点的robots.txt文件中明确禁止所有爬虫访问，包括Perplexity官方标注的爬虫（PerplexityBot和Perplexity-User）。然而，当Cloudflare用问题测试Perplexity的AI系统时，后者竟能准确回答关于这些封闭页面的详细内容——这只能说明，Perplexity已非法访问了这些受保护的数据。更令人质疑的是，Perplexity在被正式阻止后，转而使用隐蔽手段。Cloudflare发现，该公司部署了未公开的爬虫，伪装成普通浏览器，通过随机或非官方的IP地址和ASNs（自治系统编号，用于标识互联网网络的管理实体）发起请求。此外，它还使用了模拟苹果Mac电脑上Chrome浏览器的通用浏览器，试图伪装成主流用户行为。相比之下，OpenAI的爬虫在遇到robots.txt限制时，会立即停止访问，未发现任何规避行为。Cloudflare强调，这种合规性是维系开放互联网信任的基础。最终，Cloudflare将Perplexity从其“可信机器人”名单中移除，并在全球网络中部署新检测机制，全面封禁其爬虫活动。这一事件警示所有AI企业：在数据饥渴时代，尊重网络规则、遵守公开协议，是可持续发展的前提。否则，不仅会被技术封锁，更可能面临公开曝光与声誉损失。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

Perplexity被曝利用AI数据陷阱冒充谷歌引发信任危机

相关链接

Command Palette

Perplexity被曝利用AI数据陷阱冒充谷歌引发信任危机

相关链接

Command Palette

Perplexity被曝利用AI数据陷阱冒充谷歌引发信任危机

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟