HyperAI

2026年1月、英紙ガーディアンやニューヨーク・タイムズなど複数の主要メディアが、インターネットアーカイブ（Internet Archive）のクローラーによるコンテンツ抽出を制限した。この動きの背景には、AI企業がウェブコンテンツを訓練データとして収集するリスクがあるためで、特にインターネットアーカイブの「ウェイバックマシン」が、AI学習用の大量データの「裏口」として利用される懸念が高まっている。ガーディアンのビジネス担当責任者ロバート・ハーン氏によると、アクセスログからインターネットアーカイブのクローラーが自社記事を頻繁に取得していることが判明。これを受け、同社はAPI経由でのアクセスを排除し、記事ページをウェイバックマシンのURLインターフェースから除外する措置を取った。ただし、地域ページやトピックページは公開を維持しており、アーカイブの使命を尊重する姿勢も示している。ニューヨーク・タイムズも同様に、インターネットアーカイブのクローラー「archive.org_bot」をrobots.txtでブロック。同社は「人間中心のジャーナリズムの知的財産を法的に利用されるよう守る必要がある」と強調。また、フィナンシャル・タイムズはOpenAIやAnthropic、PerplexityなどのAI企業に加え、インターネットアーカイブのクローラーもブロック。有料記事はアーカイブに掲載されず、無償公開コンテンツのみが保存される。インターネットアーカイブのブリースター・カール氏は、コンテンツ制限が歴史的記録への公的アクセスを損なうと懸念を示した。一方、大学教授のマイケル・ネルソン氏は、「インターネットアーカイブは『良い仲間』だが、AI企業に悪用されている」と指摘。AI企業によるデータ収集が「善意のアーカイブ」を巻き込む「誤った犠牲」を生んでいると分析。調査によると、米国の新聞1,167サイトのうち241サイトがインターネットアーカイブの4つのクローラーのいずれかをブロック。その多くはUSA Today Co.（旧ギャネット）傘下のメディアで、2025年から複数のクローラーを禁止。同社はAIボットを月7500万件以上ブロックしており、そのうち7000万件がOpenAI関連と報告。また、Common CrawlやOpenAI、Google AIのクローラーも多数のメディアでブロックされている。インターネットアーカイブは、AI企業によるサーバー過負荷を受けて一時停止した経緯もあり、現在は内部制限やCloudflareによるセキュリティ対策を導入。しかし、robots.txtでは現時点で特定のクローラーを拒否していない。このように、メディアはAIの学習データとしてのアーカイブ利用を警戒。一方で、アーカイブは歴史的記録の保存という使命を果たす必要がある。両者のバランスをどう取るかが、今後の課題となる。

関連リンク

関連リンク

関連リンク

CVEvolveは、アルゴンヌ国立研究所が提案した、コード不要で自己発見型の科学画像処理アルゴリズムであり、コーディング、結果の自己検証、戦略最適化など、フルスタックの機能を備えている。

CVEvolveは、アルゴンヌ国立研究所が提案した、コード不要で自己発見型の科学画像処理アルゴリズムであり、コーディング、結果の自己検証、戦略最適化など、フルスタックの機能を備えている。

Command Palette

ニュース出版社、AI学習データ流出懸念でインターネットアーカイブへのアクセス制限を強化

関連リンク

Command Palette

ニュース出版社、AI学習データ流出懸念でインターネットアーカイブへのアクセス制限を強化

関連リンク

Command Palette

ニュース出版社、AI学習データ流出懸念でインターネットアーカイブへのアクセス制限を強化

関連リンク

CVEvolveは、アルゴンヌ国立研究所が提案した、コード不要で自己発見型の科学画像処理アルゴリズムであり、コーディング、結果の自己検証、戦略最適化など、フルスタックの機能を備えている。

CVEvolveは、アルゴンヌ国立研究所が提案した、コード不要で自己発見型の科学画像処理アルゴリズムであり、コーディング、結果の自己検証、戦略最適化など、フルスタックの機能を備えている。