クラウドフレアが仕掛けたAIデータ罠で、ペルプレキシティがGoogleを偽装してデータ収集か
AIスタートアップのペルペクシティ(Perplexity)が、ウェブ上のデータ収集を巡る倫理的・技術的ルールを無視したとして、クラウドフレア(Cloudflare)に「デジタル罠」にかかって捕らえられた。この事件は、AI開発におけるデータ収集の正当性と透明性がいかに重要かを浮き彫りにした。 ペルペクシティは、チャットGPTやグーグルのジェミニと競合するAI検索サービスとして知られ、大量のウェブデータを収集してモデルを学習させている。しかし、多くの企業がデータ取得にコストをかけるのではなく、無料でウェブをクロール(スクレイピング)するため、コンテンツ作成者らの反発が高まっている。これに対し、インターネットインフラの大手であるクラウドフレアは、コンテンツ提供者に報酬を支払う仕組みを守るために、AIボットの不正アクセスを防ぐ新機能を提供している。 クラウドフレアは、特定のサイトに「robots.txt」でクロールを禁止する設定を施した、公開されていない新規サイト(「ハニートラップドメイン」)を用意。これらは検索エンジンに登録されておらず、リンクやメタデータも存在しない。しかし、ペルペクシティのAIがこれらのサイトについて詳細な回答を提示したため、クラウドフレアは同社が明示的な禁止にもかかわらず、データを収集していたと断定した。 さらに調査で、ペルペクシティは公式のクローラー「PerplexityBot」がブロックされた後、非公式のIPアドレスや変更されるASNs(ASN:Autonomous System Number、自律システム番号。インターネット上のルート管理単位)を使い、ブラウザとしての偽装(Google Chromeを模したMac用ブラウザ)でアクセスを試みていたことが判明。これは、ウェブの基本ルールを無視する行為であり、クラウドフレアはこれを「北朝鮮のハッカーのように振る舞う」と批判した。 一方で、OpenAIのクローラーは、robots.txtの禁止に従い、即座にアクセスを中止するなど、透明性と協調性を示している。これに対し、ペルペクシティは「検証済みボット」の資格を剥奪され、クラウドフレアのネットワーク全体でブロックされた。 この出来事は、AI開発の現場で「データの正しさ」だけでなく、「信頼性」が重要な要素であることを示している。AI企業がウェブのルールを無視すれば、技術的優位性よりも信頼の喪失という代償を払う可能性がある。