Back to Headlines

Redditがインターネットアーカイブの投稿保存を制限、Wayback Machineのアーカイブが不能に

10日前

Redditは、AI企業がインターネットアーカイブ(Internet Archive)のウェブタイムカプセル「ウェイバックマシン」から自身のデータを無断でスクレイピングしていると判断し、同マシンによる自社サイトのインデックス化を大幅に制限すると発表した。この措置は、Redditがユーザー生成コンテンツのデータ利用を厳格に管理する方針を強化する一環であり、AI時代におけるデータライセンスの重要性が高まる中での象徴的な出来事となっている。 背景として、Redditは過去数年間、AI企業が自社の投稿データを無断で収集・利用する事態に直面。特に、GoogleやOpenAIとはデータ利用のライセンス契約を締結しており、それらの企業は正当な対価を支払ってデータを活用できる。しかし、一部のAI企業は、ウェイバックマシンを通じて過去のデータを間接的に取得し、ライセンス料を回避しているとRedditは指摘。2023年のAPI改定や、AIスクレイピングを巡る第三者的アプリの停止など、同社はAI利用の乱用を防ぐための措置を一貫して講じてきた。 今回の決定では、ウェイバックマシンがRedditの投稿詳細ページ、コメント、プロフィールページのクロールを禁止され、インデックス対象はRedditのトップページのみに限定される。これにより、インターネットアーカイブは過去のコンテンツを詳細に保存・閲覧する機能を大きく制限され、主に人気投稿の傾向を把握する程度の情報しか得られなくなる。Redditは、ウェイバックマシンがユーザーのプライバシーを尊重し、削除されたコンテンツを適切に処理できないとして、その運用体制の改善を求める一方で、既に事前にインターネットアーカイブに通知したと説明している。 インターネットアーカイブは、非営利組織として、Web上の文化遺産を保存する使命を持つ。ウェイバックマシンは、世界中で何十億ものウェブページをタイムスタンプ付きで保存しており、学術研究や歴史的調査に不可欠なツールとされている。同機関のマーカス・グレアム氏は、Redditとの継続的な対話を重視していると述べ、問題の解決に向けた協議を続けていると強調した。 この動きは、AI開発におけるデータの所有権と利用ルールが、企業と非営利組織の間で激しく対立している現状を浮き彫りにしている。Redditの戦略は、データを「オープン」に提供するのではなく、有償で管理するビジネスモデルへの転換を示しており、今後のAI産業におけるデータ取引のあり方を左右する可能性がある。

Related Links

Redditがインターネットアーカイブの投稿保存を制限、Wayback Machineのアーカイブが不能に | ヘッドライン | HyperAI超神経