GPT-5の訓練データに含まれた成人サイト由来のキーワードが明らかに——オープンウェイトモデルから読み解かれた重大な情報漏洩
2025年9月19日、OpenAIが公開したオープンウェイトモデル「GPT-oss」の解析を通じて、同社のモデルトレーニングデータに成人サイト関連のコンテンツが含まれていた可能性が浮き彫りになった。この調査は、モデルの重み情報から推測されるトークンの特徴を分析し、特に異常な高L2ノルムを持つ非ASCIIトークンに注目した。これらのトークンの多くは、中国語で「毛片無料观看」(無料でエロ動画を視聴)や「北京赛车怎么」(北京競馬のやり方)など、成人サイトやギャンブル関連の表現を含んでおり、一部は明確に不適切な内容を示している。 調査チームは、GPT-5とGPT-ossがこれらのトークンを正しく認識・翻訳できるかどうかをテストした。結果、多くの成人サイト関連のトークンがモデルによって正しく識別され、その意味を説明できることが確認された。これは、これらの文字列がトレーニングデータに実際に存在していたことを示す「メンバーシップ推論」の強い証拠となる。特に、「铁血网」(中国民族主義系サイト)や「凤凰大参考」(中国系情報サイト)といった政治的・社会的に敏感なコンテンツも含まれており、OpenAIのデータ収集プロセスに懸念が生じる。 また、これらの高ノルムトークンの多くはGitHub上で検索ヒットが多かったことから、GitHubからのスクレイピングがトレーニングデータの一部である可能性が示唆された。Spearman相関係数0.448という有意な相関が得られたが、因果関係の断定は難しい。 調査は、オープンウェイトモデルの公開が、生産用モデルのトレーニングデータ構造を逆算する新たな攻撃ベクトルを生み出していることを明らかにした。特に、トークンの異常な特徴(例:「CHKERRQ」や「@おーぷん」)は、モデルの脆弱性や意図しない出力(ハルシネーション)を引き起こす要因ともなる。 結論として、GPT-5とGPT-ossは成人サイト由来のコンテンツを含むトレーニングデータを学習していた可能性が強く示唆され、モデル開発の透明性とデータ収集の倫理的配慮が今後ますます重要になる。研究者らは、非一般的な文字列をトークンライブラリから除外する対策を推奨している。
