HyperAIHyperAI

Command Palette

Search for a command to run...

Reddit、AI学習データの不正収集を疑い複数のスタートアップを提訴。特にPerplexityがGoogle検索結果からデータを不正取得したとして「赤子の手を掴む」状態で証拠を提示。

Redditがデータスクレイピング問題に再び挑戦する動きを始めた。同社は2024年4月、ニューヨーク州で4社を相手取り、AI学習データの収集を目的としたスクレイピング行為を違法と訴えた。訴状では、Perplexity AIをはじめとする3社——米テキサス州のSerpApi、リトアニアのOxylabs、ロシアのAWMProxy——が、Redditのコンテンツを直接取得するのではなく、Google検索結果ページを通じて同様の情報を抽出し、OpenAIやMetaなどの大手テック企業に販売していたと指摘している。この手法は、直接的なアクセスを回避することで「法的リスクを低くする」戦略とされる。 Redditは、特にAnthropicに対しても同様の訴訟を提起しており、同社が「スクレイピングを停止した」と公言した後に、10万回以上にわたりRedditのページにアクセスしたと主張している。これにより、同社はAIモデルの訓練データとしての利用を正当化する試みが、利用規約違反に当たると強調している。 一方、被告側は「公開されているデータは誰でも利用可能」と主張する。Oxylabsの代表であるデナス・グリバウスカス氏は、ニューヨーク・タイムズに対し、「誰もが公開データの所有権を主張すべきではない」と述べ、データの自由な流通を支持する立場を取っている。この主張は、インターネット上に存在する情報が「公共財」として扱われるべきだという考え方に基づく。 しかし、この訴訟の成否は不透明だ。まず、Redditがニューヨークで訴訟を提起したが、被告の多くは海外に拠点を置いている。国際的な法的管轄権の問題が生じやすく、執行も困難となる。また、過去の事例からも、プラットフォーム側の勝訴は限定的である。2023年、Elon Muskが率いるX(旧Twitter)が同様の訴訟を提起したが、裁判所は「データへの過度なコントロールは情報独占を生み、公共の利益を損なう」と指摘し、訴えを却下している。 この背景には、AI開発の急拡大に伴う「データの争奪戦」がある。企業は大量のテキストデータをAIモデルに学習させるために、ネット上のコンテンツを収集するが、その手段が法的・倫理的に問題視されている。Redditの訴訟は、ユーザー生成コンテンツの価値を認める一方で、データの利用ルールを明確にしようとする試みである。しかし、技術の進化に比べて法制度の整備は遅れており、今後の判決が、AI時代のデータ利用のあり方を大きく左右する可能性がある。

関連リンク

Reddit、AI学習データの不正収集を疑い複数のスタートアップを提訴。特にPerplexityがGoogle検索結果からデータを不正取得したとして「赤子の手を掴む」状態で証拠を提示。 | 人気の記事 | HyperAI超神経